Was ist ein Datawarehouse?
Selbstbedienung im Data-Warehouse
--- Aus Laborjournal 5/2007 ---
/mf
Viele Firmen haben eins und auch die Pflanzenforscher vom Bioinformatik Zentrum in Gatersleben basteln fleißig an ihrem Plant Data-Warehouse. Aber was ist ein Data-Warehouse, zu Deutsch Datenlager, eigentlich und wie funktioniert es?
Datenbanken und Softwarepakete enthalten meist fest eingestellte Auswertungschemata. So kann man zum Beispiel bei den gängigen Programmen für die Reisekostenberechnung meist nur drei Standardberichte abfragen. In den eingegebenen Daten sind aber oft Informationen verborgen, an die man bei der Eingabe zunächst gar nicht denkt. So könnte ein Reisekostenbericht zum Beispiel auch Aussagen über die „Qualität“ des Kunden liefern. Ist dieser zum Beispiel, ein A, B oder C Kunde. Auch Forscher würden davon profitieren, wenn sie Randfragen aus Datenbanken ganz nebenbei, im EDV-Sprech, on the fly, abfragen könnten. Dazu müssen die Zusammenhänge in den Daten jedoch auffindbar sein und sich die Abfragen dynamisch entwickeln lassen.
Das Herzstück des Data-Warehouses ist eine spezielle Datenbank, die Daten aus anderen Banken zusammenführt. Über diese Data-Warehouse-Datenbank können die Nutzer des Data-Warehouses Daten einstellen, abfragen und analysieren (http://de.wikipedia.org/wiki/Data-Warehouse).
Ein konkreter Fall, den ich betreue, ist die Dateneingabe in der Bonner Giftzentrale. In dieser werden Daten zu Vergiftungsfällen, Vergiftungs-Symptomen, Behandlungsstrategien und Vergiftungs-Ausgängen gesammelt. Neben der obligatorischen Auswertung am Jahresende, sozusagen die Inventur der Giftzentrale, eröffnet die Datenbank verschiedene Möglichkeiten, Toxikologie im „Trockenen“ zu üben. So kann man damit zum Beispiel Behandlungsstrategien auf Wirksamkeit überprüfen oder die Gefährlichkeit von Stoffen in einer nicht getesteten Umgebungen verifizieren oder falsizifizieren. Mit einer „freien“ Suchstrategie kann der Forscher auf Anfragen der Industrie, der Politik oder aber auch von Verbänden schnell mit konkreten Zahlen reagieren. Darüber hinaus kann auch ein „Dämon“ selbständig Warnungen ausspucken. Über eine Abfrage der Vergiftungsdatenbank könnte man zum Beispiel auch eine Studie über Alkoholvergiftungen bei Jugendlichen durchführen. Haben diese in letzter Zeit tatsächlich zugenommen oder ist das was die Medien darüber berichten nur eine selektive Auswahl von Fällen, die in dieser Häufigkeit schon immer auftraten?
Um an die Informationen im „Datenlager“ möglichst leicht wieder heranzukommen, muss das Data-Warehouse entsprechend eingerichtet sein. Die Benutzer des Data-Warehouses brauchen als erstes ein Werkzeug für die Abfrage, das einfach zu bedienen ist und rasch Ergebnisse liefert. Die Anwender sollten die Datenbank anhand von Beispielen (Query by Example) durchsuchen können. Dazu geben diese einen Abfrage-Filter ein, an dem sich das System bei der Suche orientiert. Bei komplexen Recherchen kann die Abfrage auch nach dem Structured Query Language Modus erfolgen. Hierzu können Standard-Programme von Microsoft (EXCEL) oder auch kommerzielle Tools wie SPSS, SAS, Crystal Report oder Hyperion eingesetzt werden. Speziell Crystal Report und Hyperion sind einfach und intuitiv zu bedienen. Diese Art der Datenbankrecherche wird als Online Analytical Processing, kurz OLAP-Verwaltung bezeichnet. Als besonderes Feature bietet Hyperion die Möglichkeit die Auswertungen im Netz zu veröffentlichen. Der Datenbanknutzer kann seine gefundenen Daten auf diesem Weg direkt an seine Kollegen weiterleiten.
Wenn mit Programmen nach Mustern in Daten gesucht wird, spricht man von Data Mining. Häufig verwenden Informatiker dazu Werkzeuge wie Neuronale Netze, die Zusammenhänge in den Daten erkennen sollen. Eine spezielle Form des Data Minings ist zum Beispiel die Suche nach Verhaltensmustern von Personen bei Rasterfahndungen. Dazu ein Zitat aus Wikipedia: Der Erfolg der Rasterfahndung hängt von der Erstellung des Täterprofils ab. Ist das Profil sehr spezifisch ohne dass alle Merkmale abgesichert sind, fällt die gesuchte Person möglicherweise durch das Raster. Sind die Merkmale umgekehrt zu allgemein, werden unverhältnismäßig viele Unbeteiligte in den Kreis der zu untersuchenden Personen aufgenommen, was den weiteren Ermittlungsaufwand erhöht.
Bei der Terrorfahndung gibt es inzwischen erste Data-Mining-Erfolge. Wie schlüssig diese Ergebnisse für wissenschaftliche Auswertungen sind ist aber umstritten. Denn schnell kann es hier zu äußerst fragwürdigen Suchergebnissen kommen. Aus der Eigenschaft, dass Terroristen häufig japanische Motorräder fahren und die Miete in bar bezahlen, kann man zum Beispiel nicht den Umkehrschluss ziehen, dass alle barzahlenden Suzuki Fahrer Terroristen sind. Aber ein Vorteil der Technik bleibt: Man kann am Schreibtisch Theorien entwickeln und diese mit Hilfe von Auswertetools untersuchen ohne Experimente im Labor durchführen zu müssen.
Genauso wichtig wie die Art der Datenauswertung auf der Anwender-Seite ist die Gestaltung der Datenbank. Um bei der Datenauswertung möglichst grosse Freiheiten zu haben, muss man bei der Erfassung der Daten einige Grundregeln beachten. Diese Regeln hat der Datenbankpionier Edgar F. Codd bereits 1970 in seinen Normalisierungsvorschriften beschrieben (http://de.wikipedia.org/wiki/Normalisierung_(Datenbank). Es gibt drei Normalisierungsregeln. Diese kann man sich so vorstellen: Wenn drei Variablen untersucht werden sollen, zum Beispiel Alter, Ort, Stoff, dann müssen diese einen Datenkubus ergeben. Stark vereinfacht heißt das:
Ø Die Daten sind in Tabellen anzuordnen
Ø Die Daten müssen über eine ID zu erreichen sein
Ø Doubletten werden vermieden und ausgekürzt
Beispiel von Fehlern:
ID Anrede Name
01 Herr Willi
01 Herr Franz
Tab. 1 redundante Datenhaltung
Hier wiederholt sich die ID, das heißt die Daten sind nicht mehr eineindeutig. Die Anrede wiederholt sich ebenfalls, hier ist ein Schlüssel einzugeben, der auf eine Stütztabelle verweist:
01 Herr
02 Frau
Tab 2 Auslagertabelle
Korrekt sähe dann ein Mini Datenbankentwurf so aus:
ID Anrede Name
01 01 Willli
02 02 Berta
Tab 3 Redundanzfreie Datenhaltung
Die Tabellen sind über die ID’s miteinander verwoben. Damit sind die Daten beweglich wie Gutenbergs Blei-Lettern beim Buchdruck. Gleichzeitig sind Verwechslungen und Rechtschreibfehler ausgeschlossen. Eine weitere Technik ist die Atomarisierung. In Adressdaten werden oft Postleitzahl und Strasse miteinander verwoben. Damit beraubt man sich aber der Möglichkeit, in dem Reporting-Tool nach Postleitzahlen zu sortieren. Eine Faustformel lautet deshalb: Keine inneren Abhängigkeiten schaffen.
Das Normalisieren ist eine Standardaufgabe des Data-Warehouse Designs. Damit bereinigt man die Daten, die dann kristallklar für Recherche-Programme wie Crystal Reports zur Verfügung stehen sollten. Diesen Prozess aus Extraktion, Transformation, Laden nennt man auch ETL-Prozess. Man entnimmt dem laufenden System Daten, „reinigt“ sie mit einem Parameterset und stellt sie dann als Datenkubus dem Forscher, respektive Nutzer, zur Verfügung. Dieses Parameterset liefert, vereinfacht gesagt, die Ausklammervariablen, die benutzt werden um aus Tabelle [1], Tabelle [2] zu gestalten. Die Aufgabe des Datawarehouse Designers ist es eine enprechende Datenbankarchitektur zu gestalten. Er arbeitet mit Forschern und Endanwender zusammen, die Aufgaben gibt die Realität vor.
Diese Technik wurde auch im UDI Projekt genutzt, im Laborjournal 10 2006 [3] , [4] beschrieben und befindet sich erfolgreich im Einsatz.
Übrigens: eine Zunahme an Alkoholvergiftungen im Jugendalter (14-18 Jahre) lässt sich mit der Datenbank der Bonner Giftzentrale nicht nachweisen.
Literatur und Quellen
1. http://de.wikipedia.org/wiki/Normalisierung_(Datenbank
2. http://de.wikipedia.org/wiki/Rasterfahndung
3. http://www.laborjournal.de/rubric/tricks/tricks/trick109.html
4. http://www.doag.org/pub/docs/konferenz/2006/konferenzflyer_2006.pdf
5. http://buin.bitclix.de
6. http://www.meb.uni-bonn.de/giftzentrale/
|