Datenqualität

English

Sehr häufig erlebt man, daß Software nicht richtig funktioniert.  Oft ist es ein Fehler der Software selbst,das wissen wir nur zu gut.

Die Erfahrung zeigt aber, daß noch häufiger das Problem bei den Daten liegt, mit denen die Software arbeitet.  Kurz gesagt ergeben sich aus falschen Daten falsche Ergebnisse.

Es lohnt sich also, in Organisationen, die mit Software arbeiten, auf die Qualität der zugrundeliegenden Daten zu achten.  Für Software sind wir es gewohnt, daß es Prozesse gibt, die Qualität zu testen und gegebenenfalls Fehler zu finden und zu korrigieren.  Auch wenn diese Prozesse oft Mängel aufweisen, sind sie doch vorhanden und funktionieren meistens auch irgendwie. Natürlich ist es andererseits auch oft einfacher, fehlerhafte Daten als fehlerhafte Software zu korrigieren.

Wer kümmert sich aber um die Qualität der Daten?  Ist die Software einmal abgenommen, ist oft eine „Fachseite“ dafür zuständig, die Daten zu pflegen.  Oder die Daten kommen von anderen Systemen.  Ein paar Fragen dazu:

  • Kennt man den Weg der Daten durch die verschiedenen Systeme?
  • Gibt es Verantwortliche für die Datenqualität?
  • Werden die Daten überprüft?

Die entsprechenden Fragen sind oft weniger klar beantwortet als im Fall der Software, wo man doch den Entwicklungsprozeß zumindest ansatzweise kennt, Verantwortlichkeiten definiert sind und eine zumindest rudimentäre Überprüfung der Qualität üblich geworden ist.

Ein paar Beispiele, natürlich soweit abstrahiert, daß man sie nicht mehr einer bestimmten Organisation zuordnen kann:

Daten sollten eine Realität abbilden, sagen wir mal den Bestand an Möbelstücken in einem Büro.  Wenn nun gelegentlich Möbelstücke ausgetauscht, entfernt oder dazugekauft werden und die Daten mit der Realität nicht Schritt halten, hat man irgendwann den Bezug zur Realität eingebüßt.

Daten sollten genau sein.  Zum Beispiel hat man irgendwo meinen Namen falsch geschrieben und die Mailadresse mit dem falschen Namen definiert.  Das kann egal sein, ist es aber nicht wirklich.  Der Name wird an so vielen Stellen verwendet, wo es auf die buchstabengenaue Schreibweise ankommt, deshalb ist eine Ungenauigkeit heute nicht mehr so leicht zu verschmerzen wie zu den Zeiten der Papierpost und der Briefträger, die noch Zeit hatten, einen Brief mit einer ungeauen Adresse dem richtigen Empfänger zu bringen.  Im Fall des falsch geschriebenen Namens konnte ich damals recht schnell eine Stelle finden, die den Fehler korrigiert hat.  Aber nach einer Woche war er wieder da und niemand wußte, wie man das wirklich löst, bis ich nach ein paar Monaten zufällig die Person gefunden hatte, die das „Master“-System betreute, von dem die Daten immer wieder repliziert wurden.

Eine häufige Folge von Ungenauigkeiten sind Duplikate, die unter anderem durch so eine Ungenauigkeit beim Schreiben von Namen oder anderen Datenfeldern entstehen können. Oder durch verschiedene miteinander kommunzierende Systeme, die sich ihre Daten gegenseitig weiterreichen und irgendwann „vergessen“ auf schon bekannte Daten zu prüfen.

Interessant sind auch Fälle, wo sich eine Attribut ändert, zum Beispiel der Name einer Person.  Nun ist diese Person aber schon vor der Namensänderung im System gewesen und die Daten sind auch entsprechend verknüpft.  Bleiben diese Verknüpfungen bei einer Namensänderung erhalten?

Viele dieser Probleme lassen sich zumindest teilweise behandeln, indem man bei der Erstellung einer IT-Landschaft darauf achtet, daß diese möglichst wenig fehleranfällig ist:

  • Wie kommunzieren die Systeme miteinander?  Welches System ist „Master“ für die Daten?  Oder gibt es eine wirklich funktionierende „Multimaster“-Architektur?
  • Können offensichtlich falsche Daten erkannt und abgelehnt werden?
  • Wie werden Daten miteinander verknüpft und wie resistent sind diese gegenüber Veränderungen?
  • Gibt es Workflows, die es erleichtern, Daten konsistent und aktuell zu halten?
  • Wie stabil sind Schnittstellen zu anderen Systemen?
  • Gibt es Plausibiltitätsprüfungen bei den Daten, insbesondere auch auf Ähnlichkeit (Duplikate)?
  • Wird ein Abgleich mit zuverlässigen Datenquellen durchgeführt?
  • Wie werden Änderungen in der durch die Daten abgebildeten Realität erkannt und in den Datenbestand eingeführt?

Man kann heute recht viel machen und es ist sinnvoll, auch viele Tests der Datenqualität im laufenden Betrieb automatisiert durchzuführen.  Aber es ist auch wichtig, daß die Personen, die die Daten liefern, genau arbeiten und daß die Prozesse so gelebt werden, daß alle Beteiligten daran arbeiten, eine gute Datenqualität sicherzustellen.  Um bei dem Beispiel der Möbel zu bleiben:  Diejenigen, die die Möbel in dem System erfassen müssen, dürfen nicht mit anderen Tätigkeiten so überlastet sein, daß die Erfassung der Möbel keine Priorität mehr hat und nur halbherzig oder zu spät oder gar nicht gemacht wird.  Sonst kann man sich die teure IT-Applikation sparen, die mit dem entsprechenden Datenbestand arbeitet.

 

Share Button

Ein Gedanke zu „Datenqualität

  1. Pingback: Data Quality | Karl Brodowsky's IT-Blog

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*