P01 - Pr?diktorfunktion

Die Datenmodellierung

Ein wichtiger Beitrag des Teilprojekts P01 zum Sonderforschungsbereich P01 besteht in der Datenmodellierung der experimentellen Datens?tze. Hierfür ist eine zentrale Dateninfrastruktur notwendig, welche ein globales Datenmodell für alle durchgeführten Urformung- und Einf?rbungsprozesse sowie Deskriptorermittlungen (sog. Prozessschritte) umfasst. Um eine Rekonstruierbarkeit einzelner Experimente im Sinne einer guten wissenschaftlichen Praxis zu gew?hrleisten, ist eine individuelle formale Spezifikation eines jeden Prozesses notwendig. Die Menge aller Prozesse umfasst dabei alle urformenden und einf?rbenden Prozesse sowie die Deskriptor- und Werkstoffeigenschaftsermittlungen. Es werden hierbei nicht nur die experimentellen Daten selbst, sondern ebenfalls die Rohdaten und die Prozessparameter (Versuchsparameter) erfasst. Für die formale Spezifikation ist eine Bibliothek auf Basis der g?ngigen JavaScript Object Notation (JSON) entwickelt worden, die eine gute Lesbarkeit erm?glicht und gleichzeitig nativ vom Dateneingabesystem verarbeitet werden kann.

Diese Spezifikation definiert den Datentyp oder den Wertebereich jedes einzelnen Prozessparameters, wodurch eine Konsistenzprüfung direkt bei der Eingabe erfolgen kann. Eine weitere, wichtige Funktionalit?t besteht in der Implementierung von Einleseroutinen (engl. Parser), die funktional das Einlesen, die Aufbereitung und die strukturierte Ablage von Forschungsdaten realisieren. 

Auf Basis der formalen Spezifikationen werden vom eigens implementierten web-basierten Eingabesystem individuelle Eingabemasken generiert, die von den jeweiligen wissenschaftlichen Mitarbeiter*innen bzw. Techniker*innen zur Eintragung der Experimente in die zentrale Datenbank verwendet werden. Das Eingabesystem implementiert hierbei ein rollenbasiertes Nutzermodell, wodurch die Schreibrechte entsprechend restriktiv vergeben werden k?nnen und eine Nachvollziehbarkeit im Sinne der Data Provenance gew?hrleistet wird. Zudem wird eine Verbindlichkeit zwischen dem Autor und den Datens?tzen erzeugt.

Zus?tzlich ist ein Konzept zur Versionierung der Prozessspezifikationen entworfen worden, um die Evolution der einzelnen Prozesse zu adressieren. W?hrend der ersten F?rderphase wurden insgesamt 60 Prozesse spezifiziert, aus denen kumuliert 380 Versionen resultierten. Diese Spezifikationen wurden in gemeinsamen Experteninterviews in enger Kooperation mit dem Arbeitskreis ?Datenaustausch und Datenmanagement“ durchgeführt. Bei der Datenmodellierung und dem Entwurf der Schnittstellen nahmen die FAIR-Prinzipien eine wichtige Stellung ein.

Die Datenbank

Entgegen der weiten Verbreitung von SQL-basierten Datenbanken, wurde bewusst eine dokumentorientierte Datenbank verwendet. Ein klassisches SQL-Datenbanksystem besitzt eine vorgegebene Tabellenstruktur, die bei komplexen Anfragen typischerweise umfangreiche Vereinigungsoperationen (sog. JOINs) erfordert. Diese Operationen bilden oftmals einen massiven Engpass bei gro?en Datens?tzen. Ist hingegen der kausale Zusammenhang und die sp?tere semantische Verwendung a-priori gegeben, k?nnen alle koh?renten Teile der Information direkt in einem einzelnen Dokument gespeichert und in der dokumentorientierten Datenbank abgelegt werden.

Dieser semantische Datenzusammenhang ist im Sonderforschungsbereich 1232 bekannt, da die Untersuchungen strikt probenorientiert durchgeführt und die Resultate jedes Prozesses als atomare Einheit interpretiert werden k?nnen. Hierbei werden die Proben selbst mittels eines neu entwickelten, standardisierten Schemas benannt, wodurch die einzelnen Proben inkl. ihrer gesamten Prozesshistorie auch im Fortlauf des Projekts direkt adressierbar sein werden. Die Verwendung dieser probenorientierten Ablage in Kombination mit dem dokumentenorientierten Datenbanksystem eliminiert die Notwendigkeit ganzheitlicher Vereinigungen und reduziert die Anzahl von Verknüpfungen in der Datenablage bzw. beim Datenzugriff massiv. Generell eignet sich eine dokumentenorientierte Datenbank ideal für heterogene Datens?tze, da keine feste Tabellenstruktur vorgegeben ist, die rückwirkend angepasst werden müsste.

Bei dem entwickelten, dokumentenorientierten Datenmodell wurden zwei unterschiedliche Klassen eingesetzt: Die erste Klasse modelliert einen atomaren Prozessschritt inkl. aller assoziierten Meta-Informationen, Prozessparameter und Messdaten. Die zweite Klasse modelliert eine Probe als Entit?t im System, beinhaltet zentrale Attribute, beispielsweise die eindeutige Proben-ID, und bildet ferner die Prozesshistorie in Form einer linearen Datenstruktur (engl. Array) ab. Dieses Array besteht aus einer chronologisch geordneten Sequenz von Prozessschritten, wobei die jeweiligen Prozessschritte nur als Referenz hinterlegt werden. Insbesondere thermische Einf?rbungsprozesse sowie Urformungsprozesse (auf der Mikroebene) werden gleichzeitig auf eine Vielzahl von Proben angewendet. Die Verwendung von Referenzen erlaubt es, dass die Parameter dieser o.g. Prozesse nur einfach gespeichert werden müssen, wodurch eine Datendeduplikation erzielt werden kann. Au?erdem erm?glicht diese Struktur die Unterscheidung zwischen invasiven und nicht-invasiven Prozessen: Sofern der Zustand einer Probe durch einen Prozessschritt modifiziert (eingef?rbt) wird, entsteht eine neue (virtuelle) Einrückung und alle nachfolgenden Prozessschritte sind mit diesem ver?nderten Zustand assoziiert. Dieses Modell erm?glicht es, auf alle Datens?tze, die mit einer Einzelprobe oder einem spezifischen Probezustand verbunden sind, einfach zuzugreifen.

Als zentrale Datenbank wird die MongoDB (vgl. https://www.mongodb.com) genutzt, die sich insbesondere durch eine gute Konnektivit?t bzgl. einer Vielzahl von relevanten Programmiersprachen auszeichnet. Ein weiterer, wichtiger Aspekt bestand in einer effizienten Ablage der Dokumente selbst, bspw. durch eine Datendeduplikation, die durch MongoDB erm?glicht wird.

Es sind neue Basisoperatoren für den applikationsspezifischen Datenzugriff entwickelt und den anderen Teilprojekten als Softwarebibliothek zur Verfügung gestellt worden. Die Erweiterbarkeit des nativen Befehlssatzes von MongoDB wurde dazu verwendet, ein Query-Framework direkt in die Datenbank zu integrieren, welches die ben?tigten Funktionalit?ten bzgl. der Datenabfrage bereitstellt. Diese Basisoperatoren berücksichtigen, neben den Proben- und Prozessdaten, ebenfalls die Informationen aus der formalen Spezifikation der einzelnen Prozesse.

Mehr Informationen zu der Arbeit mir der Datenbank finden Sie auf folgenden Links:

BigData-Insider: Bremen geht neue Wege in der Materialforschung

MongoDB-Blog: Creating the material world through data, one million inventions at a time (englischsprachiger Artikel) 

 

Das Expertenwissen

Zus?tzlich wird in den Basisoperatoren weiteres Wissen über die Korrelationen - sowohl auf einer groben (Prozessebene) Granularit?t als auch feinen (Ebene der charakteristischen Werten) Granularit?t - verwendet. Diese Korrelationen werden mathematisch in Form von Adjazenzmatrizen repr?sentiert. Hierbei beschreiben die Matrizen sowohl wichtige Korrelationen für die Skalierungsfunktion als auch welche für die ?bertragungsfunktion. Zum Zwecke des zentralen Zugriffes werden diese ebenfalls in der Datenbank abgelegt.

Die Einführung dieser Matrizen ist dadurch begründet, dass der zur Verfügung stehende Datenumfang, der einzelne Stützstellen beschreibt, wesentlich geringer ausgefallen ist als ursprünglich angenommen. Au?erdem war die zu betrachtende Dimensionalit?t signifikant h?her als angenommen, welches sich aus den konkreten Ermittlungsverfahren der charakteristischen Werte aus den deskriptorermittelnden Prozessen ergeben hat. Die einzelnen Dimensionen sind somit aus Datensichtsicht dünn besetzt, welches insbesondere beim Einsatz von datengetriebenen Techniken problematisch ist - das sog. Sparse Data Problem. Durch diese zwei Gegebenheiten ist es nicht m?glich, den hochdimensionalen Raum der charakteristischen Werte datengetrieben zu reduzieren bzw. einen Startpunkt zu w?hlen. Dies betrifft sowohl den Umfang der Stützstellen bzgl. verschiedener Legierungssysteme als auch die Variationen auf der Mikroebene im Hochdurchsatz.

Neben der reinen Ablage besitzt jede Adjazenzmatrix ebenfalls eine Versionsnummer, wodurch die Korrelationen adaptierbar sind. Dies kann beispielsweise durch neue, wissenschaftlich tiefe Erkenntnisse aus den jeweiligen Teilprojekten erfolgen oder durch algorithmisch rückgekoppelte Korrelationsanalysen, sobald eine ausreichende Datenbasis existiert. Der initiale Zustand der Matrizen wurde dabei durch umfangreiche Experteninterviews ermittelt und zuerst mittels terti?rer Logik innerhalb einer Gleitkommazahl, welche sich direkt verfeinern l?sst, wie folgt kodiert: 0 → ?keine Korrelation angenommen“, 0,5→ ?Korrelation als m?glich angenommen“ und 1,0 → ?Korrelation angenommen“.

Eine Visualisierung dieser Matrizen ist in Abbildung 1 gezeigt.

Abbildung 1: Angenommene Korrelationen auf Prozessebene
Abbildung 2: : Angenommene Korrelationen auf Ebene der charakteristischen Werte

Durch die Kombination aus Datenbasis, Prozessspezifikation sowie Adjazenzmatrizen ist es mittels neu entwickelter Basisoperatoren m?glich, Anfragen an die Datenbank zu stellen, welche beispielsweise spezifische Werkstoffkennzahlen eines standardisierten Zugversuches ausgeben, die bzgl. eines spezifischen charakteristischen Wertes eines Kugelstrahlversuches aus dem Teilprojekt U04 (Mechanisches Einf?rben) auf der Mikroebene korrelieren. Diese Funktionalit?t bildet für die Pr?diktorfunktion und die algorithmische Umsetzung des nachfolgend beschriebenen Hypothesensystems eine wichtige Grundlage.

Abbildung 3: Entwickelter Hypothesen-Editor
Abbildung 4: Grammatik der dom?nenspezifischen Sprache

Das Hypothesensystem

Ein Hypothesensystem in Kombination mit einer dom?nenspezifischen Sprache (DSL) ist entwickelt worden, welches es erm?glicht, Hypothesen über Eigenschaften der existierenden Datenbasis zu formulieren und zu evaluieren. Die Hypothesen bestehen zum einen aus Voraussetzungen (engl. Assumptions) und zum anderen aus Behauptungen (engl. Assertions).

Hierbei werden die Voraussetzungen dazu verwendet, einen Gültigkeitsbereich der Hypothesen zu definieren. Dies erm?glicht es beispielsweise, die in der Hypothese nachfolgenden Behauptungen nur auf eine spezifische Probengeometrie oder W?rmebehandlung anzuwenden. Es k?nnen auch weitere, komplexere Eigenschaften beschrieben werden, die sich auf Informationen über aktuelle Korrelationen (aus den Adjanzenzmatrizen) beziehen, wofür Modellierungstechniken aus dem Bereich des Model-Checking verwendet wurden.

Abbildung 2 zeigt den web-basierten Hypothesen-Editor zur Formulierung neuer Hypothesen, die im Back-End evaluiert werden. Abbildung 3 zeigt die unterstützten Sprachkonstrukte der entwickelten DSL, um sowohl 澳门皇冠_皇冠足球比分-劲爆体育stufige Voraussetzungen als auch Behauptungen zu beschreiben, die logisch miteinander verbunden sind. Zus?tzlich werden die eingeführten Nomenklaturen bzgl. der Proben- und Prozessbezeichnung sowie der Bezeichnung eines einzelnen charakteristischen Wertes unterstützt. Es sind die g?ngigen arithmetischen Operatoren verfügbar, ebenfalls beim Vergleich mit Konstanten. Au?erdem k?nnen komplexere Charakteristika auf den Datenreihen berechnet werden, die beispielweise den Pearson’s Korrelationskoeffizienten (PCC) berechnen und einen Vergleich über diesen erm?glichen.

Die formulierten Hypothesen k?nnen durch das entwickelte System validiert bzw. falsifiziert werden. Im Falle der Falsifikation werden entsprechende Gegenbeispiele aufgezeigt, d.h. Datenartefakte, für die die skizzierten Behauptungen nicht gültig sind, und die somit die Hypothese widerlegen. Eine Validation impliziert, dass die formulierte Hypothese für die gesamte Datenbasis unter den Voraussetzungen (Assumptions) gültig ist.

Abbildung 5: Pr?diktionsframework bestehend aus umhüllendes Expertenwissen und Kernelfunktionen

Die Pr?diktorfunktion

Die entwickelte Pr?diktorfunktion bildet einen wesentlichen Aspekt der Gesamtmethode und ist stark in den gesamten Datenfluss eingebunden. Die Pr?diktorfunktion erm?glicht eine Vorhersage der Zusammenh?nge zwischen den ermittelten Deskriptoren auf der Mikroebene und den Werkstoffeigenschaften der korrelierten Makroproben. Zum Aufbau der Pr?diktorfunktion werden Stützstellen ben?tigt, die sich (a) aus korrelierten Deskriptorermittlungen auf Mikro- und Makroebene und (b) aus korrelierten Deskriptoren sowie Werkstoffeigenschaften auf Makroebene zusammensetzen. Hierbei werden die Datens?tze (a) für die Konstruktion der Skalierungsfunktion verwendet, welche die Skaleneffekte zwischen der Mikro- und Makroebene abbildet.

Die Datens?tze (b) werden zur Konstruktion der ?bertragungsfunktion genutzt, welche die eigentliche Vorhersage von Werkstoffeigenschaften realisiert.

Die Pr?diktorfunktion besteht aus funktionaler Sicht aus einer Komposition dieser beiden Funktionen und wurde auf der 10. IEEE Symposium Series on Computational Intelligence (IEEE SSCI 2017) publiziert.

Für die Stützstellen sind hierbei zum einen das verwendete Legierungssystem, dessen Untersuchung sich in der ersten F?rderphase auf die Legierung 100Cr6 konzentriert hat, und zum anderen die W?rmebehandlungen elementar. Die W?rmebehandlung muss hierbei derart erfolgen, dass vergleichbare Mikrostrukturen entstehen. Die notwendigen Parameter hierfür wurden im Arbeitskreis (Skalierung) bestimmt, in Form eines Variantenplans spezifiziert und mit in die Prozessspezifikation aufgenommen.

Zus?tzlich ist ein Zugriff auf die Adjazenzmatrizen notwendig, um einzelne sog. Kernelfunktionen zu erzeugen, welche jeweils zwei Eingabevektoren auf einen Wert abbilden, der das Skalarprodukt beider Vektoren repr?sentiert. Jede Kernelfunktion ist gem?? des Expertenwissens für eine Teilmenge aller Deskriptoren und Werkstoffeigenschaften gültig. Diese Segmentierung war notwendig, um die hohe Dimensionalit?t und das Sparse Data Problem zu adressieren, und erfolgte auf Basis der initial erwarteten Korrelationen.

Je nach strukturellen Gegebenheiten der verwendeten Deskriptoren bzw. Werkstoffeigenschaften k?nnen unterschiedliche Kernelfunktionen und -parameter verwendet werden, die individuell zu ermitteln sind.

Eine Kernelfunktion wird instanziiert und im Anschluss mit den Datenpunkten der Stützstelle trainiert, die durch Einsatz der Basisoperatoren aus der Datenbasis extrahiert werden. Dabei sieht das Verfahren vor, dass nach Ermittlung weiterer Stützstellen das Training wiederholt wird. Hierbei ist zu berücksichtigen, dass die Kernelfunktion nach jedem Trainingsschritt einen spezifischen Zustand besitzt, der durch die berechnete Parametrierung definiert ist. Eine Kernelfunktion wird im entwickelten Framework nach jedem Training zugreifbar abgelegt. Die Pr?diktorfunktion aggregiert, je nach erfolgter Eingabe für die Pr?diktion, entsprechend der Ergebnisse aller Kernelfunktionen. Durch die Einführung von Kernelfunktionen lie? sich der sog. Kernel-Trick realisieren, der durch die Kombination 澳门皇冠_皇冠足球比分-劲爆体育erer einfacher Regressionen erm?glicht, nicht-lineare Datens?tze bestm?glich zu repr?sentieren. Diese Methode wurde im SSCI Paper publiziert, wobei der Fokus auf Kernelfunktionen lag, die dem Typ der Kernel-Recursive Least-Mean-Square (KRLMS) Techniken entsprachen, die u.a. bei erneuten Trainingsschritten durch ihren rekursiven Charakter gute Pr?diktionsergebnisse erzielt haben. Die Parameterwahl wurde dabei mittels Cross-Validation optimiert.

Publikationen

R. Drechsler, S. Huhn, Chr. Plump: Combining Machine Learning and Formal Techniques for Small Data Applications - A Framework to Explore New Structural Materials. Euromicro Conference on Digital System Design (DSD), Portoro?, Slowenien, 2020, [Link zur Konferenz], [Link zum PDF]

S. E. Harshad Dhotre, Krishnendu Chakrabarty, Rolf Drechsler: Machine Learning-based Prediction of Test Power, IEEE European Test Symposium (ETS), Baden-Baden, Germany, 2019.

D. T. Sebastian Huhn, Rolf Drechsler: Hybrid Architecture for Embedded Test Compression to Process Rejected Test Patterns, IEEE European Test Symposium (ETS), Baden-Baden, Germany, 2019.

S. Huhn, D. Tille, R. Drechsler: A Hybrid Embedded Multichannel Test Compression Architecture for Low-Pin Count Test Environments in Safety-Critical Systems, International Test Conference in Asia (ITC-Asia), Tokyo, Japan, 2019.

B. Ustaoglu, S. Huhn, F. S. Torres, D. Gro?e, R. Drechsler: SAT-Hard: A Learning-based Hardware SAT-Solver, EUROMICRO Digital System Design Conference (DSD), Kallithea - Chalkidiki, Greece, 2019.

M. Picklum, M. Beetz: MatCALO: Knowledge-enabled machine learning in materials science, Computational Materials Science 2019, 163, 50-62

Huhn, S., Frehse, S., Wille R., Drechsler, R. Determining Application-Specific Knowledge for Improving Robustness of Sequential Circuits. IEEE Transactions On Very Large Scale Integration (VLSI) Systems.
[Link zur Zeitschrift ]  [Link zum Artikel]

Huhn, S., Eggersglü?, S., Drechsler, R. Enhanced Embedded Test Compression Technique for Processing Incompressible Test Patterns. 31. GI/GMM/ITG Testmethoden und Zuverl?ssigkeit von Schaltungen und Systemen. 2019. Prien am Chiemsee, Germany. [Link zum Workshop] [Link zum PDF]

Ustaoglu, B., Huhn , S., Gro?e, D., Drechsler, R. SAT-Lancer: A Hardware SAT-Solver for Self-Verification. 28th ACM Great Lakes Symposium on VLSI (GLVLSI). 2018. Chicago, Illinois, USA. [Link zur Konferenz]

Huhn, S., Merten, M., Eggersglü?, S., Drechsler, R. A Codeword-based Compaction Technique for On-Chip Generated Debug Data Using Two-Stage Artificial Neural Networks. 30. GI/GMM/ITG Testmethoden und Zuverl?ssigkeit von Schaltungen und Systemen (TuZ 2018). 2018. Freiburg (Breisgau), Germany. [Link zum Workshop]

C. Gro?e, C. Sobich, S. Huhn, M. Leuschner, R. Drechsler, L. M?dler: Arduinos in der Schule - Lernen mit Mikrocontrollern, Computer + Unterricht 2018.

Sebastian Huhn, Heike Sonnenberg, Stephan Eggersgluess, Brigitte Clausen, Rolf Drechsler. Revealing Properties of Structural Materials by Combining Regression-based Algorithms and Nano Indentation Measurements Conference. 10th IEEE Symposium Series on Computational Intelligence (SSCI), Hawaii, USA, 2017 [Link zur Konferenz] [Link zum PDF?[PDF] (1.9 MB)]

Harshad Dhotre, Stephan Eggersglü?, Rolf Drechsler. Identification of Efficient Clustering Techniques for Test Power Activity on the Layout. 26th IEEE Asian Test Symposium (ATS), Taipei, Taiwan, 2017 [Link zur Konferenz]

Sebastian Huhn, Stephan Eggersglü?, Rolf Drechsler. Reconfigurable TAP Controllers with Embedded Compression for Large Test Data Volume. 30th IEEE International Symposium on Defect and Fault Tolerance in VLSI and Nanotechnology Systems (DFT), Cambridge, UK, 2017 [Link zur Konferenz][Link zum PDF?[PDF] (255 KB)]

Sebastian Huhn, Stephan Eggersglü?, Krishnendu Chakrabarty, Rolf Drechsler. Optimization of Retargeting for IEEE 1149.1 TAP Controllers with Embedded Compression. Design, Automation and Test in Europe (DATE), Lausanne, Schweiz, 2017 [Link zur Konferenz] [Link zum PDF?[PDF] (285 KB)]

Drechsler, R., Eggersglü?, E., Ellendt, N., Huhn, S., M?dler, L. Exploring Superior Structural Materials Using Multi-Objective Optimization and Formal Techniques. 6th IEEE International Symposium on Embedded Computing & System Design (ISED), December 15-17, Patna, India, 2016.

Projektleitung


Prof.Dr. phil. nat.habil.
Rolf Drechsler
drechslerprotect me ?!informatik.uni-bremenprotect me ?!.de

 

assoziierte Projektleitung


Prof.
Michael Beetz, PhD
michael.beetzprotect me ?!uni-bremenprotect me ?!.de

 

Projektbearbeitung


Sebastian Huhn
huhnprotect me ?!informatik.uni-bremenprotect me ?!.de

Mareike Picklum
mareikepprotect me ?!cs.uni-bremenprotect me ?!.de