Diplomarbeit
Meine Diplomarbeit mit dem Titel „Integrated Processing of Object-Relational and XML Databases with SQL:1999“ habe ich am Arbeitsbereich Verteilte Systeme und Informationssysteme (VSIS) des Fachbereichs Informatik an der Universität Hamburg bei Prof. Dr. Norbert Ritter und Doz. Dr. Martin Lehmann geschrieben. Die Arbeit entstand in Kooperation mit Natalia Hänikel und Iryna Kozlova. Sie ist Teil des SQXML-Projekts.
- Diplomarbeit.pdf – die Diplomarbeit
- SQXML.ppt.zip – Vortragsfolien
Zusammenfassung
„Datenbankintegration, auch Enterprise Information Integration (EII) genannt, hat in jüngerer Zeit wegen des Erfolges
von XML und der Notwendigkeit der Speicherung und Handhabung von XML-Daten zunehmend an Bedeutung gewonnen. Ziel der
Datenbankintegration ist es, transparenten integrierten Zugriff auf mehrere Datenquellen zu gewährleisten, und sie ist
daher eine zentrale Anforderung von Organisationen, die Daten aus mehreren Quellen integrieren müssen. In der
Schemaintegration, einem speziellen EII-Ansatz, bleiben die Datenbanken vollständig autonom, und eine Middleware-Schicht
wird eingeführt, die dem Benutzer eine globale Sicht über die Datenbankschemata zur Verfügung stellt und
Anfragetransformationen durchführt, um globale Anfragen zu beantworten, indem Teilanfragen an die Datenbanken gesendet
und die Resultate kombiniert werden.
In der vorliegenden Diplomarbeit wird eine Schemaintegrations-Architektur für die
beiden am weitesten verbreiteten Datenbank-Management-Systeme vorgestellt, und zwar für objektrelationale SQL:1999 und
native XML Schema Datenbanksysteme. Insbesondere wird der Fall eines globalen SQL:1999-Schemas untersucht. Die zentrale
Herausforderung ist es, trotz der Heterogenität zwischen den ursprünglichen Schemata das globale Schema zu erzeugen. Um
die inhärenten konzeptuellen Unterschiede zwischen SQL:1999 und XML Schema zu überwinden, wird in dieser Diplomarbeit
ein neuartiger Ansatz vorgeschlagen, der den Common Warehouse Metamodel-Standard (CWM) verwendet. Um die Schemata zu
vergleichen, d.h. um ihre Korrespondenzen zu finden, und um sie zu vereinen, werden die besten derzeit bekannten
Algorithmen weiter verbessert. Um Modellierungskonflikte, die zwischen den Schemata wegen eines unabhängigen Entwurfs
auftreten können, zu eliminieren, werden potenzielle Konflikte untersucht und aufgelöst. Schließlich wird eine
Architektur zur Anfrageverarbeitung vorgeschlagen, die Anfragen an das globale Schema in Teilanfragen auf den ursprünglichen
Datenbankschemata aufspaltet und deren Ergebnisse integriert.“