Freitag, 11. Dezember 2015

Data Vault 2.0

Seit vielen Jahren schon war ich in unterschiedlichen BI / Data Warehouse Projekten engagiert. Gemäß Ralph Kimballs Methodik des dimensionalen Modellierens haben wir versucht, so gut wie möglich die Anforderungen zu ermitteln, dimensionale Modelle mit Fakten- und Dimensionstabellen zu bauen und mit beeindruckenden ETL Prozessen zu beladen. Gelegentlich begegnete ich dem geheimnisvollen Stichwort "Data Vault", aber abgesehen von ein paar Schlagworten konnte ich lange Zeit nichts damit verbinden. Es fehlte nach meiner Einschätzung auch nichts in unseren Projekten - die Ergebnisse waren meistens ganz zufriedenstellend.

Mit den ersten Projekten, die Data Vault einsetzen, hat sich mein Blickwinkel auf BI Projekte jedoch gründlich verändert. Tatsächlich lassen sich damit einige grundlegende Probleme sehr effizient lösen.

Was ist denn nun dieses Data Vault?


Das dimensionale Standard Data Warehouse nach Kimball geht von einer zweistufigen Architektur aus, wie sie die nachfolgende Grafik zeigt:
Zweistufige Architektur nach Kimball
Mit Data Vault kommt eine weitere Stufe zwischen Staging Area und dem dimensionalen Data Warehouse hinzu.
Dreistufige Architektur mit Data Vault
 Diese Schicht, gelegentlich auch Enterprise Data Warehouse genannt, hat zwei Aufgaben:
  • Integrieren der Daten aus unterschiedlichen Quellen
  • Aufbau der Historie aller Daten, die diese Quellen liefern
Dabei handelt es sich um eine Datenbank, in der drei Typen von Tabellen modelliert sind:
  • Hubs - enthalten nur Business Keys eines Typs von Geschäftsobjekt
    (z.B. Kunde, Vertrag, Tarif)
  • Links - verbinden Hubs
    (z.B. ein Kunde schließt einen Vertrag)
  • Satelliten - enthalten ergänzende Daten zu Hubs
    (z.B. Vertragsart, Anfangsdatum, Vertragsdauer)
In diesen Tabellen werden die Daten weitestgehend so abgelegt, wie sie aus den Quellen kommen - inklusive aller Änderungen über die Zeit. Erst beim Beladen der obersten Schicht, des dimensionalen Data Warehouse, kommen Geschäftsregeln zur Anwendung, welche die Daten interpretieren und in Informationen umwandeln. Beispielsweise wenn zu einem Kunden aus zwei unterschiedlichen Quellen zwei unterschiedliche Adressen geliefert werden, entscheidet eine Geschäftsregel darüber, welche die vertrauenswürdige Quelle ist.

Der Vorteil dieser Trennung offenbart sich spätestens, wenn eine Geschäftsregel sich ändert: Bei der zweistufigen Lösung hat die Interpretation der Daten bereits beim Laden von der Staging Area in das dimensionale DWH stattgefunden. Ändern diese sich, wird es schwierig: oft ist die Historie der Daten nicht oder nur schwer aus der Staging Area zu rekonstruieren. Mit Data Vault ist das Problem wesentlich kleiner, denn im Data Vault liegen die originalen Quelldaten mitsamt ihrer gesamten Historie - das dimensionale DWH kann jederzeit mit neuen Geschäftsregeln neu beladen werden.

Darüber hinaus bietet die standardisierte Tabellenstruktur im Data Vault die Möglichkeit, das Laden der Tabellen weitgehend zu automatisieren. Auch Erweiterungen wie das Hinzufügen neuer Datenquellen und neuer Attribute erfolgen ganz geradlinig, weil die bestehenden Ladeprozeduren nicht modifiziert und auch nicht erneut getestet werden müssen. Kein Wunder, dass agiles Vorgehen in BI Projekten erst mit Data Vault so richtig gut funktioniert.

Brauchen nun alle BI Projekte einen Data Vault?


Data Vault ersetzt also keineswegs das dimensionale Data Warehouse und die Kimball Methodik, sondern fügt der BI Architektur eine weitere Schicht hinzu. Wann lohnt sich dieser zusätzliche Aufwand?

Bei kleinen und mittleren BI Lösungen, die nicht auditiert werden müssen, ist eine zweistufige Architektur oft völlig ausreichend: Eine Staging Area in der ersten Stufe und ein dimensionales Data Warehouse in der zweiten Stufe.

Wird mit Data Vault alles einfacher?


Durch Hinzufügen der Data Vault Schicht wird zunächst einmal der initiale Aufwand größer. Und vor allem braucht das Team Erfahrung und Anleitung bei der Data Vault Modellierung. Nur wenn die Konzepte durchgängig umgesetzt werden, liefert Data Vault die erwarteten Vorteile. Aber mit wachsender Größe eines DWH Projekts und mit jeder Quelle, die im Lauf der Lebensdauer einer BI Lösung hinzukommt, treten auch die Vorteile stärker in den Vordergrund.

Die Antwort auf die Frage ist also, wie so oft, ein qualifiziertes "Ja, aber". Mein Vorschlag: Machen Sie sich mit dem Thema vertraut, zum Beispiel über die unten aufgeführten Links. Ein DWH Architekt sollte auf jeden Fall Data Vault in seinem Methodenkoffer haben um das in der jeweiligen Situation am besten Passende daraus anzuwenden. Jetzt ist ein perfekter Zeitpunkt sich ernsthaft mit diesem Thema auseinanderzusetzen, denn in seinem gerade erschienen Buch "Building a Scalable Data Warehouse with Data Vault 2.0" stellt Dan Linstedt seine umfassende Methodik und eine ausgereifte Modellierungstechnik anhand vieler Beispiele vor. Alle BI Spezialisten, die wie ich den Microsoft SQL Server als Schwerpunkt haben, wird es freuen, dass viele Beispiele in diesem Buch mit SSIS und T-SQL umgesetzt sind.

Dan Linstedts Blog
Roelant Vos Blog
datavaultmodeling.de

Happy vaulting!


Mittwoch, 3. Juni 2015

Self-Service BI - eine Aufgabe für die IT Abteilung

Frage: Was müssen Sie tun, um Self-Service BI im Unternehmen zu einem Misserfolg zu machen?
Antwort: Überlassen Sie dieses Thema den Endanwendern

Mit Produkten wie PowerPivot, Power Query, Power View, SharePoint und Report Builder bietet Microsoft eine ganze Palette von Werkzeugen an, die den Fachabteilungen mehr Flexibilität und Unabhängigkeit von IT Spezialisten geben sollen. Im Rahmen meiner Arbeit habe ich nun schon mehrere Unternehmen erlebt, die diese Möglichkeiten einsetzen. Einige Initiativen waren sehr erfolgreich, andere sind weitgehend gescheitert.

Warum Self-Service BI ohne die IT Spezialisten nicht funktioniert

Der größte Irrtum in Bezug auf Self-Service BI ist, dass die Fachanwender nun auf einmal die Arbeit der IT Abteilung übernehmen könnten. Dies ist übrigens auch eine gelegentlich geäußerte Befürchtung von IT Spezialisten - ob sie denn nun arbeitslos werden, weil ihre Kenntnisse nicht mehr benötigt werden.

Das Gegenteil ist der Fall.

Aus den Augen der Fachanwender betrachtet ist das Versprechen der neuen Werkzeuge, nämlich mit ihren "eigenen Leuten" den Bedarf an Reporting und Datenanalyse abzudecken, die Befreiung von vielen lästigen Restriktionen der Unternehmens-IT:
  • fehlende Daten
  • langwierige, aufwändige Prozesse bis neue Daten in Reports erscheinen
  • unflexible Lösungen, die am tatsächlichen Bedarf vorbei gehen
  • hohe Kosten
Verlockende Aussichten. Ein Heer von Vertriebsleuten schürt diese Vision.

So kommt es, dass eine "ganz normale" Mitarbeiterin in einer Fachabteilung zunächst Rechnungs-Informationen in einer Excel Datei zusammenstellt, darauf ein PowerPivot Modell baut und erste Erfolge publiziert. Hoch motiviert bindet sie eine weitere Datenquelle ein, sagen wir eine CSV-Datei mit SAP Daten. Und eine weitere, nun eine Datenbank mit Abrechnungsinformationen. Hier unterstützt ein Access-erfahrener Kollege. Beide zusammen polieren das PowerPivot Modell auf, fügen ein paar DAX Ausdrücke hinzu und publizieren das Ergebnis in SharePoint. Ein großer Erfolg! Die Abteilung hat ihr eigenes Abrechnungs-Reporting unabhängig von der geschmähten IT Abteilung hinbekommen.

Noch etwas warten, dann ist der Punkt erreicht, wo ich für gewöhnlich ins Spiel komme. Denn im nächsten, spätestens im übernächsten Monat sind die selbst gebauten Reports nicht mehr so ganz korrekt. Unbeherrschbare DAX Ausdrücke, Fehler nach dem Aktualisieren der Daten, nur halb funktionierende Kennzahlen. Jetzt beginnt die eigentliche Arbeit: Fragen nach den Datenquellen, Aufräumen des PowerPivot Modells, Konsolidieren der Daten.

Was ist hier schief gelaufen?

Eigentlich haben die Anwender alles richtig gemacht. Nur haben sie die Komplexität der Aufgabe unterschätzt. Solange der überwiegende Anteil der Daten für ein PowerPivot Modell aus einer Datenbank kommt, ist alles überschaubar. Aber die Informationen aus Textdateien oder Excel Dateien abzurufen, aufzubereiten und mit den anderen Datenquellen zu harmonisieren, das wird mit jeder zusätzlichen Datei um ein Vielfaches aufwändiger. Die Fachabteilung findet sich auf einmal in der Modellierung von ETL-Prozessen wieder - etwas, worauf sie nicht vorbereitet waren und wofür sie auch keine Methodik kennen.

Die richtige Mischung macht's

Wir IT Spezialisten sehen solche Aufgabenstellungen mit anderen Augen. Datenmodellierung, ETL und Datenqualität sind dank Ralph Kimball bestens erschlossene Gebiete. Aber wir haben ja nun auch viel Zeit in unsere Ausbildung und in die Umsetzung der best practices investiert. Die Fallstricke der Modellierung und das erforderliche akribische Vorgehen beim Extrahieren und Laden von Daten in ein Data Warehouse haben wir in hunderten Stunden Projektarbeit kennengelernt. Das sind Aufgaben, die eine genaue Klärung, eine routinierte Umsetzung und geplante Tests erfordern. Nichts, was man "nebenbei" erledigen könnte. Der Lohn der Arbeit sind stabile, automatisch ablaufende Daten-Aktualisierungen und eine hohe Datenqualität.

Wenn wir den Fachabteilungen solche Datenquellen liefern, dann können sie diese tatsächlich einfach verwenden, um darauf ihr eigenes Reporting und ihre eigenen Analysen aufzusetzen. Dann können sie die Berichte schnell so gestalten, wie es ihren Bedürfnissen am besten entspricht. Und sie können sich auf die Zahlen verlassen. In so einer Umgebung ist es auch einfach, noch die eine oder andere Information aus einer zusätzlichen Datei oder aus dem Internet hinzuzufügen.

Um es ganz deutlich zu sagen: Dies ist ein Plädoyer für das klassische Data Warehouse! Das Data Warehouse stellt hoch qualitative Daten bereit, so dass Fachanwender einfach darauf zugreifen und sie nach Herzenslust miteinander verknüpfen können. Gerade in Zeiten von Self-Service BI kommt dieser Vorteil so richtig zum Tragen.

Was Self-Service BI tatsächlich leisten kann

Die erfolgreichen Self-Service BI Initiativen, die ich kennenlernen durfte, zeichnen sich alle durch ein Merkmal aus: Entscheidungsträger aus dem obersten Management wollten, unterstützten und überwachten die Maßnahmen.
Die nicht erfolgreichen Initiativen waren allesamt dadurch gekennzeichnet, dass sie entweder ausschließlich technisch betrachtet wurden ("mit den richtigen Tools kommt der Erfolg von selbst") oder dass sie nur von wenigen Personen getragen wurden ("was interessiert mich dieser neumodische Kram").

Die positiven Effekte für die Fachanwender wie Flexibilität, Geschwindigkeit und passgenaue Lösungen können sich nur dann einstellen, wenn diese Bedingungen gegeben sind:
  1. die Self-Service BI Initiative hat die volle Unterstützung durch das oberste Management
  2. die Ziele der Initiative sind allen Betroffenen klar
  3. der Erfolg oder Misserfolg wird durch das oberste Management engagiert überwacht
  4. die Fachanwender haben Zugriff auf ein hervorragend gepflegtes Data Warehouse (das ist mit Abstand der kostenintensivste Teil)
  5. die Fachanwender haben im Rahmen von Schulungen ihre neuen Werkzeuge gründlich kennengelernt
  6. die Fachanwender erhalten Unterstützung durch Mitarbeiter, die sowohl die Self-Service Tools bestens kennen als auch mit der IT Landschaft vertraut sind. Anwenderunterstützung, End User Computing, Daten Analysten, Business Analysten - wie auch immer die Rollenbezeichnung lautet - Menschen mit solidem und umfangreichem IT Hintergrundwissen aber auch mit einem Verständnis für die Anforderungen der Fachabteilungen schlagen Brücken. Sie unterstützen die Anwender beim Auffinden der für sie besten Datenquellen, bei komplexeren SQL Statements, bei ausgefeilten DAX Ausdrücken und sie erkennen vor allem, wann die Grenzen der Self-Service Tools erreicht sind und wann eine professionelle ETL Lösung erforderlich ist.
Wenn diese Voraussetzungen gegeben sind, dann entfalten die anfangs aufgezählten Tools eine belebende Wirkung. Dann erstellen pfiffige Mitarbeiter in den Fachbereichen auf einmal neuartige Reports und Analysen, die ein Unternehmen effizienter, profitabler, schneller und kundenfreundlicher machen können. Dann lösen sie das Versprechen von Self-Service BI ein. An jede dieser Lösungen, die ich unterstützen durfte, denke ich mit großer Begeisterung zurück.

Wenn das Management und die IT die richtigen Rahmenbedingen schaffen, dann ermöglichen sie die Erfolgsgeschichte von Self-Service BI. Arbeiten wir daran!

Dienstag, 31. März 2015

Liste der SQL Server Fehlercodes

Eine Liste der Fehlercodes, die der SQL Server ausgeben kann, findet sich in der Dokumentation. Wenn Sie jedoch gerade keinen Zugriff aufs Internet haben, können Sie auch den SQL Server direkt fragen:

select * from sys.messages

Das ist sehr praktisch, wenn Sie einen Fehlercode  haben und den vollständigen Text der Fehlermeldung nachschlagen möchten. Oder wenn Sie die deutsche Fehlermeldung kennen und den englischen Text wissen möchten um ihn zum Beispiel in einer Suchmaschine einzugeben. Das ist möglich, weil die Tabelle sys.messages alle Fehlermeldungen in 22 verschiedenen Sprachen enthält.


Tabelle sys.messages enthält jede Fehlermeldung in verschiedenen Sprachen
Welche language_id zu welcher Sprache gehört, können Sie in einer anderen Systemtabelle nachschlagen:

select *
from sys.syslanguages


In der Spalte msglangid dieser Tabelle finden Sie den zu language_id korrespondierenden Wert. In welcher Sprache Sie die Fehlermeldungen sehen, hängt von den Ländereinstellungen auf dem Betriebssystem des Clients ab, der die Verbindung zum SQL Server aufgebaut hat. Wenn Sie die Sprache für eine Verbindung umstellen möchten, können Sie das mit diesem Befehl machen:

SET LANGUAGE FRENCH; 

Mehr zur SET LANGUAGE Anweisung finden Sie in der MSDN.

Sonntag, 1. März 2015

SQL Server Migration Assistant (SSMA) und die Sortierreihenfolge der Datenbanken

Bei der Migration einer größeren Oracle Datenbank nach MS SQL Server haben wir den SQL Server Migration Assistant (SSMA) for Oracle in der Version 6 eingesetzt. Wirklich ein sehr hilfreiches Tool!

Laufzeitprobleme nach Umzug der Datenbank


Ein größeres Problem trat auf, nachdem wir die migrierte SQL Server Datenbank gesichert und auf einer anderen SQL Server Instanz wiederhergestellt hatten. Beim Ausführen von gespeicherten Prozeduren, die der SSMA generiert hatte, gab es auf einmal diesen Laufzeitfehler:

Msg 217, Level 16, State 1, Line 1
Maximum stored procedure, function, trigger, or view nesting level exceeded (limit 32).

Auf dem alten SQL Server funktionierten dieselben Funktionsaufrufe weiterhin fehlerfrei. Die Ursache musste also irgend etwas mit dem neuen Server zu tun haben.

Sortierreihenfolge als Fehlerursache


Um es kurz zu machen: Die Sortierreihenfolge der neuen SQL Server Instanz (Server Collation) war eine andere als auf dem alten Server. Dadurch hatte auch die Systemdatenbank master eine andere Sortierreihenfolge (Database Collation) als die auf dem alten Server. Erst einmal ist nicht ersichtlich, warum das zu Problemen führen könnte. Der Hintergrund ist Folgender: In der master Datenbank werden durch das SSMA Extension Pack drei Extended Stored Procedures installiert. Der vom SSMA generierte T-SQL Code verwendet Kompatibilitätsfunktionen (das sind die im Schema ssma_oracle), welche ihrerseits wiederum diese Extended Stored Procedures in master aufrufen.

Wenn die master Datenbank und die Benutzerdatenbank mit vom SSMA generierten T-SQL Code unterschiedliche Sortierreihenfolgen aufweisen, dann tritt reproduzierbar dieser Fehler auf.

Das Aufspüren dieser Fehlerursache hat unser Team viel Zeit gekostet. Vielleicht hilft diese Erläuterung ja jemandem, der ebenfalls auf dieses etwas exotische Problem stößt. Wir haben es übrigens beseitigt, indem wir die Sortierreihenfolge der Benutzerdatenbank umgestellt haben. Das ist einen weiteren Blog-Post wert, den ich in den nächsten Tagen schreiben werde.

Samstag, 28. Februar 2015

SSMS: Mit Suchen und Ersetzen Zeilenumbrüche einfügen

Oft wäre es nützlich, im SQL Editor von SQL Server Management Studio mit Suchen und Ersetzen auch Sonderzeichen wie "neue Zeile" einfügen zu können. Beispielsweise um vor jedem "CREATE" Statement noch ein "GO" einzufügen, denn nach "GO" muss immer eine neue Zeile beginnen.
Auf dem direkten Weg ist es nicht möglich Sonderzeichen einzugeben. Doch durch die Verwendung regulärer Ausdrücke eröffnen Sie sich diese und noch eine ganze Palette weiterer Möglichkeiten.

Reguläre Ausdrücke sind der Schlüssel


Die im Bild dargestellte Option "Use - Regular expressions" interpretiert die Zeichenfolgen in den Eingabefeldern "Find what" und "Replace with" unter Berücksichtigung der Regeln für reguläre Ausdrücke.

Mit regulären Ausdrücken wird das Suchen und Ersetzen erheblich leistungsfähiger
Weil in regulären Ausdrücken die Zeichenfolge "\n" die Bedeutung "neue Zeile" hat, fügt das im Bild dargestellte Beispiel vor jedem "CREATE" ein "GO" und eine neue Zeile ein.

Vor allem aber können Sie reguläre Ausdrücke bei der Suche von Mustern im Text verwenden, indem Sie diese im Eingabefeld "Find what:" eingeben. Gerade erst musste ich in einem sehr langen SQL Skript alle Funktionsaufrufe finden, denen kein Schemaname vorangestellt war. Da die Funktionsnamen alle mit "fn_" begannen, konnte ich die betreffenden Stellen im Text mit diesem Ausdruck in "Find what:" schnell finden:
[^.]fn_  Dieser reguläre Ausdruck liefert alle Stellen, wo vor fn_ kein Punkt steht. Ist diese Hürde erst einmal genommen, ist es ein Leichtes, mit Suchen und Ersetzten an diesen Stellen noch den Schemanamen hinzuzufügen. In meinem Fall dauerte das für ca. 400 Ersetzungen nur wenige Sekunden.

Eine vollständige Dokumentation regulärer Ausdrücke finden Sie zum Beispiel in der MSDN oder in diesem Wikipedia Artikel.

Noch ein Tipp: Gerade wenn das gesuchte Muster an sehr vielen Stellen im Text vorkommt, dann ist die Option "Find in Files" eine großartige Hilfe. Sie erreichen diese Funktion hier:

Find in Files erstellt eine Liste mit allen Stellen, wo der Suchausdruck gefunden wurde

Fazit: Der Texteditor im Management Studio bietet viele leistungsstarke Funktionen für das Suchen und Ersetzen in Texten. Man muss nur genau hinsehen um sie zu finden.