Cloudera Session - Munich 2016

Verfasst von Dirk Schittko am 14. Oktober 2016. Veröffentlicht in Trip Report

Am 13.10.2016 machte die Cloudera Session Tour halt in München. In der Allianz Arena mit Blick aufs Grün gab es über den Tag eine Reihe interessanter Vorträge rund um Big Data im allgemeinen und Hadoop im speziellen.

In seiner Keynote vermittelte Clouderas CTO Amr Awadallah aus meiner Sicht einen hervorragenden Einblick, was Big Data umfasst, warum es gerade jetzt in aller Munde ist und welche Vorteile sich daraus ergeben.

Neben der Höhe von Kosten pro Datenmenge für die Bereitstellung einer Hadoop-Umgebung sieht Awadellah vor allem den Zeitgewinn durch die Vermeidung von komplexen Laderoutinen als Vorteil. Zudem sind die Schemata flexibel (sprich: nicht an die SQL Strukturen und Syntax gebunden). Durch diese Punkte kann man nun Daten sammeln, auch wenn man sie aktuell nicht benötigt. Der Nährboden für Data Science sei damit gelegt worden.

Bereits vor über 40 Jahren war die Forschung im Bereich der künstlichen Intelligence (Artificial Intelligence, im weiteren AI) weit fortgeschritten, bis Mitte der 80er Jahre der "AI-Winter" einbrach. Die Technik war einfach noch nicht so weit, Daten in der benötigten Menge und Tiefe zu erzeugen und mit der entsprechenden Geschwindigkeit zu bearbeiten. Das ist heute definitiv nicht mehr der Fall.

Den entscheidenden Schub erhielt Big Data laut Awadellah jedoch durch die Entwicklung der Algorithmen in den letzten Jahren. Er sieht eine Demokratisierung dieser Art von Datenverarbeitung und nennt vor allem Google als Beispiel für die Entwicklung von Algorithmen, aber auch deren Bereitstellung als Open Source.

Der wahre Wert einer Big Data Installation liegt jedoch nicht in der klassischen Analytik. Das Finden von Anomalien, der sogenannten unbekannten Unbekannten (O-Ton: "finding weird stuff") und das Vorhersehen zukünftiger Entwicklungen mittels Musterfindung (Predictive Modelling) betrachtet Awadellah als unschätzbaren Mehrwert.

Leider sieht Awadellah Deutschland im Bereich Big Data "way behind".

Angesichts der Tatsache, dass hierzulande das Thema Big Data meist rein (produkt-)technisch präsentiert wird, und nicht den Mehrwert für Anwender herausstellt und dabei auch noch Prozesse und Modellierung völlig ignoriert, kann man Amr Awadellah nur beipflichten und hoffen, dass sich die Entwicklung schnell ändert.

Im anschließenden Expertengespräch mit Teilnehmern von Microsoft, T-Systems, DELL, Talent und Runtastic wurde Big Data aus den unterschiedlichen Sichtweisen von Anbietern von Software, Hardware und Infrastruktur und Anwender betrachtet.

Spannend waren die beiden Kunden-Präsentationen von Runtastic und Otto.

Runtastic baut als Community ständig seine Services für seine Millionen von Kunden aus. Die entsprechenden Apps wurden über 100 Millionen mal geladen, eine genaue Kundenzahl nannte Christoph Reininger, Head of Business Intelligence der Runtastic GmbH nicht. Mit 7 Mitarbeitern im Big Data Team betreut er aktuell 200 TB an Daten in einem Cluster aus acht Knoten. Eine der Anwendungen ist die Churn-Analyse, um potentielle Kündigungen von Kunden im voraus zu erkennen und entsprechen gegenzusteuern. Z.Zt. existieren ausschließlich B2C Dienste, es gäbe aber Ideen für weitere Services. Dabei gelte es jedoch, die Datenschutzproblematik nicht aus den Augen zu verlieren.

Rupert Steffner, Chief BI Platform Architect bei Otto GmbH & Co. KG sprach über die AI-gesteuerte Customer Experience. So berechnet ein "Bid Bot" die Wahrscheinlichkeit, ob und wann ein Kunde aufgrund seines Verhaltens den Kauf durchführen möchte, und präsentiert dem Kunden zum richtigen Zeitpunkt das richtige Angebot. Dazu sind entsprechende Sensoren notwendig. Das Projekt BRAIN bei OTTO verfügt über 800 Sensoren. Nach Herrn Steffner benötigt AI bessere Daten. Aus den aktuell 1 PB an Rohdaten werden permanent aus dem "Rauschen" entsprechende Signale ermittelt und aufbereitet.

Neben der Technik weist Rupert Steffner ausdrücklich auf den Inhalt hin: Ohne ein passendes Marketing-Konzeot helfen auch Ummengen an Daten nichts.

Parallele Technik-Sessions schließen dann den sehr informativen Tag ab: Ich entscheide mich für den Vortrag Cloudera Essentials for Apache Hadoop. Daniel Tydecks bietet einen umfassenden, aber verständlichen Überblick über das Angebot von Cloudera.

Ich empfand die Cloudera Session als sehr angenehm. Das Thema Big Data wurde von allen Seiten beleuchtet, Grundlagen verständlich dargestellt, in Zusammenhang gebracht und durch gehaltvolle Kundenvorträge abgerundet.