Smart Data

Was ein Data Lake für Ihre Unternehmens-IT leisten kann

Big Data ist nichts Neues mehr. Die Herausforderungen aktueller Entwicklungen für die Unternehmens-IT werden zutreffend mit den „3Vs“ zusammengefasst:

  • Volume – die schiere Menge der Daten. Dabei wird eine Quantifizierung sowohl in Speicherplatzverbrauch (z.B. Tera-, Exa- oder Zetabytes) als auch in anderen Formen (z.B. Anzahl der Datensätze oder Tabellen) vorgenommen.
  • Variety – die Vielfalt der durch Menschen, Maschinen und Prozesse produzierten Daten. Zu den strukturierten Daten, die bis vor kurzem noch eine Vormachtstellung innehatten, kommen nun immer mehr unstrukturierte Daten (z.B. Textdaten, Sprache) und semi-strukturierte Daten (z.B. XML, RSS-Feeds).
  • Velocity – die Geschwindigkeit, mit der die Daten generiert, verarbeitet und analysiert werden. Agile Methoden der Softwareentwicklung implizieren auch agile Datenstrukturen. Was gestern gültig war, muss es heute nicht sein.

Wer diese Herausforderungen annimmt, der praktiziert „Smart Data“ statt nur „Big Data“. Die Großen der Branche realisieren schon heute enorme Wettbewerbsvorteile gegenüber den zögerlichen Unternehmen, die möglicherweise noch in der Problemanalyse verharren:

  • Ein robustes, voll automatisiertes Data Warehouse ermöglicht Standard- und Ad-Hoc-Reporting.
  • Analytische Methoden wie Forecasting, Szenario-Technik oder Trendermittlung mit Hilfe von Self-Service-BI-Tools erweitern die geschäftlichen Möglichkeiten.
  • Per App können Kunden ihre Interaktionen bequem in der Bahn erledigen – ein Gang in eine Filiale erfordert ja vielleicht Überwindung.
  • Die Daten von Facebook oder Twitter werden angezapft, um sich mittels Natural Language Processing (NLP) und Sentiment Analysis ein Bild vom eigenen Unternehmen und dem Wettbewerb zu machen.
  • Organisatorische Rollen wie Data Steward, Data Owner und Data Consumer wurden definiert.
  • Konsequente Datenanalysen liefern vertieftes Wissen über das Business und generieren ständig Wettbewerbsvorteile.
  • Wahrscheinlich verursacht die IT sogar weniger Kosten als vorher.

All diese Vorteile sichert die Kombination eines Data Warehouses mit einem Data Lake. Das relativ neue Konzept vom Data Lake ist vielen Entscheidern jedoch noch unbekannt. Höchste Zeit, sich damit auseinanderzusetzen!

WAS IST EIN DATA LAKE UND VOR ALLEM – WAS BRINGT ER MIR?
Ein Data Lake verarbeitet und speichert Massendaten unter der Berücksichtigung der Faktoren Auffindbarkeit, Präsentierfähigkeit und Sicherheit. Es gibt nicht „die Architektur“ des Data Lake, sondern es kommt auf die Zusammenstellung der einzelnen modularen Komponenten auf Basis der Prozesse an. Ein Data Lake ermöglicht Ihnen bei korrekter Anwendung einen hohen Return on Byte bei gleichzeitig niedrigen Total Costs of Ownership.

Im Kern ist ein Data Lake ein logisches Konstrukt, das aus verschiedenen Bestandteilen zusammengesetzt ist – so wie beispielsweise auch Ihr Data Warehouse. Im Data Lake wirken im Wesentlichen Technologien, organisatorische Rollen und Algorithmen zu einem bestimmten Zweck zusammen. Bevor wir diesen Zweck näher erläutern, soll die folgende Grafik die Einordnung des Data Lake in unsere Datadrivers Architektur für Modern BI aufzeigen:

Business Analytics Architektur

Anhand der Daten- und Informationsflüsse lässt sich leicht erkennen, dass wir den Data Lake nicht als isoliertes System sehen.

Data Lakes speichern Daten jeden Typs ohne Bearbeitung in ihrer nativen Form. Dabei geht es vor allem auch um den erwarteten Wert der Daten: Es wird eine riesige Anzahl verschiedener Rohdaten unter der Annahme gesammelt, zukünftige Probleme schnell, flexibel und kosteneffizient lösen zu können und Antworten auf Fragen zu finden, die sie sich heute vielleicht noch gar nicht stellen.

Data Warehouse und Data Lake sind dabei keine konkurrierenden Alternativen, ganz im Gegenteil: Beide Konzepte ergänzen sich und funktionieren am besten zusammen.

Für spezielle Anforderungen eignet sich der Data Lake-Ansatz, bei dem die Rohdaten unbearbeitet gespeichert werden. Dadurch wird der Data Lake zu der Spielwiese ihrer Data-Scientisten. Auf Basis einer iterations-basierten Architektur können die Datenanalysen sowohl auf strukturierten Daten als auch auf unstrukturierten Daten aufsetzen.

Zudem kann ein Data Lake als „Staging Area“ für ein klassisches DWH dienen, wodurch die Rohdaten nur einmal bereitgestellt werden müssen und dann langfristig zur Verfügung stehen. Gleichzeitig kann das Zieldatenmodell des DWH wieder im Data Lake für flexiblere Analysen fungieren.

Wenn also der Analysefokus definiert ist und häufig wiederkehrende, standardisierte Abfragen erfolgen, ist ein Data Warehouse nach wie vor das Mittel der Wahl. Ebenso ist es das bevorzugte Konzept, wenn eine konsolidierte Gesamtsicht im Vordergrund steht, die von unterschiedlichen Anwendern konsistent abgefragt wird.

Für den Gewinn neuer Erkenntnisse ist es daher entscheidend, traditionelle und neue Methoden intelligent miteinander zu kombinieren.

WELCHE EIGENSCHAFTEN BRINGT EIN DATA LAKE MIT SICH?
Zunächst einmal ist ein Data Lake ein riesiges Repository, welches verschiedene Arten von Massendaten speichert. Dabei wird diese Speicherung nicht ausschließlich mittels Hadoop – oder besser HDFS – realisiert. Nutzen Sie die optimale Speichertechnik für den jeweiligen Anwendungsfall! Betrachten Sie Beziehungen? Dann nehmen Sie Graphen-Datenbanken wie neo4j. Möchten Sie zunächst den Prozess gespeichert abbilden? Dann nehmen Sie eine dokumentorientiere Datenbank wie MongoDB oder MarkLogic. Es gibt unzählige weitere Konzepte wie etwa spaltenbasierte Implementierungen wie HBase oder Key-Value-Stores.

Wie Sie sehen – es kommt ganz darauf an, auf welchen Auswertungskontext Sie sich konzentrieren. Aber nicht alles dreht sich um die Speicherung – natürlich muss die Fülle der Daten auch integriert werden – und das nicht nur im klassischen Batch, sondern auch in nahezu Realtime. Als Beispiel dienen hier etwa Live-Empfehlungen in einem Online-Portal für ganz spezielle Kundencluster oder After Sales. In diesen Fällen werden Sie mit Tools wie Storm, Spark oder Message Queues in Berührung kommen. Aber keine Angst – Sie sind ja nicht alleine, wir helfen Ihnen gerne bei der sachgerechten Auswahl.

SPEICHERN IST JA SCHÖN UND GUT – ABER WO KOMMT DER EIGENTLICHE RETURN ON BYTE HER?
Sie können den Data Lake mit Leichtigkeit skalieren – und das zu nahezu linearen Kosten. Salopp gesagt: Benötigen Sie mehr Platz oder mehr Rechenleistung, stellen Sie einfach ein neues Cluster dazu – fertig. Neben der einfachen Skalierung sind Sie in der Lage, verschiedenste Arten von Datenquellen zu bewältigen: Ob Streams von sozialen Netzwerken, binäre Daten wie PDF-Scans oder Youtube-Videos oder text-basierte Daten – für alles gibt es die passenden Schnittstellen. Zu 90 Prozent direkt out-of-the-box. Und gerade diese Vielfalt lässt sich mit schemafreien „Schema-less-Datenbanken“ leicht speichern und bei Veränderung robust behandeln. Falls Ihr externer Dienstleister, von dem Sie Daten gekauft haben, mal kurz die komplette Datenschnittstelle umstellt, ist das mit einem Data Lake gar kein Problem. Im weiteren Verlauf bringen Sie zunächst problembezogen eine Struktur in die Daten, um dann mit Hilfe von fortgeschrittenen Analyse-Techniken aus dem Bereich des Data Mining softwaregestützt (und oft interaktiv) interessante, aber schwer aufzuspürende Beziehungsmuster explorativ und weitgehend autonom zu ermitteln.

Die so gewonnenen Annahmen lassen sich anschließend mit statistischen Methoden verifizieren. Diese Erkenntnisse können Sie dann in das Data Warehouse zurückspielen oder Ihre Prozesse entsprechend anpassen. Der große Vorteil des Data Lake aus Analyse-Sicht ist, dass individuelle, explorative Datenanalysen für unterschiedlichste Fachanwender gleichzeitig und nahezu in Echtzeit möglich sind. Zusammenhänge – auch in nicht aufbereiteten Daten – können einfacher und schneller entdeckt werden.

ARCHITEKTONISCHER ANSATZ
Es gibt – anders als bei der etablieren Data Warehouse-Disziplin – nicht den einen Königsweg. Nichtsdestotrotz hat sich aus unserer praktischen Erfahrung der folgende Ansatz als der praktikabelste herausgestellt. Inwiefern die einzelnen Bestandteile am Ende ausgeprägt sind, hängt dabei maßgeblich von den betrachteten Daten ab.

Datadrivers GmbH | Die Experten für Big Data
  • Im Intake Tier werden alle Aktivitäten der Datenbeschaffung abgewickelt. Von den verschiedenen Push and Pull Connect Services bis hin zu den tatsächlich gespeicherten Informationen im RAW-Format – für gewöhnlich auf dem HDFS. Die Daten sind an dieser Stelle noch unstrukturiert.
  • Das Management Tier sorgt für eine erste Integration der Daten. Sie bildet die Basis für das Ziel der Präsentierfähigkeit und stellt eine Anlaufstelle für fortgeschrittene Analyse-Methoden dar. Beginnend mit Validitäts- und Qualitätsprüfungen geht es über den Weg des Data Cleansing (zum Beispiel durch Anwendung von Distanzanalysen nach Hamming oder Levensthein) zur Klassifizierung in einem Data Hub, der die Daten nach ihrer Klassifikation (relational, dokumentorientiert, Graph) abspeichert.
  • Das folgende Data Consumption Tier spricht für sich: Hier ist der zentrale Anlaufpunkt für das Konsumieren von Daten, zum Beispiel durch Visualisierungstools wie Tableau oder Microsoft Power BI. Es ist das Gateway für den Zugriff auf die Daten in den darunterliegenden Schichten – ein Data Scientist kann also sowohl auf die Roh- als auch die integrierten Daten zugreifen. Provisionierung, Discovery und Governance sind wesentliche Bestandteile dieser Schicht.

Neben diesen aufeinander aufbauenden Schichten, die je nach ihren Prozessen unterschiedlich stark ausgeprägt sind, besteht diese Architektur aus drei Layern, die sich komplett durch die Tiers ziehen:

  • Wir operieren mit großen Datenmassen. In diesem Kontext ist ein Information Lifecycle Management Layer essenziell: Welche Daten sollen überhaupt gespeichert werden? Und wenn ja, wie lange werden die Daten gespeichert, bis sie gelöscht oder archiviert werden?
  • Welche Informationen habe ich gespeichert? Wie verteilen sich diese Informationen? Wo finde ich sie? Wie signifikant sind die Informationen? Antworten dazu finden sich im Metadata Layer. Dies ist zum Beispiel ein klassischer Use-Case für den Einsatz von Elasticsearch im Data Lake.
  • Mittels des Security and Governance Layer gewährleisten Sie den Schutz Ihrer Daten über Zugriffsrechte oder das Audit-Trailing sowohl für interne als auch externe Datenzugriffe.

Wir hoffen, wir konnten mit unseren Ausführungen aus der Praxis zu einem besseren, greifbaren Verständnis das Data Lake im Kontext von Big und Smart Data beitragen. Sind noch Fragen offen? Kommentieren Sie, rufen Sie uns an – wir freuen uns über jedes Gespräch und jede Diskussion. (FW, JM)

Quelle: Pasupuleti, Pradeep / Purra, Beulah Salome (2015) Data Lake Development with Big Data