Das Big Data Lab der ACT

Die Umgebung besteht aus einer zwei Schichten Architektur (Entwicklung und Produktion). Hierzu stehen dem Big Data Lab ein Server (70GB Ram, 4 Kerne, 7TB HDD) und fünf Clients (35GB RAM, 4 Kerne, 5TB HDD) zur Verfügung. Um eine praxisnahe Konfiguration zu gewährleisten, wird auf allen Systemen CentOS 7 als Betriebssystem und Hortonworks HDP als Big Data Distribution eingesetzt. Server sowie Clients stehen im Serverraum der ACT. Um das Netzwerk bei rechenintensiven Operationen nicht zu belasten, verfügt der Server über zwei Netzwerkkarten. Somit können der Server und die Clients über ein Subnetz miteinander kommunizieren. Rechenintensive Datenverarbeitung in Form von Data-/Text-Mining, Predictive-/ Advanced Analytics mit großen Datenmengen wird mit Hilfe der Technologien Apache Hadoop, Apache Spark und der MongoDB abgebildet. Diese Technologien arbeiten mit verteilten Systemen und müssen sich somit untereinander „abstimmen“ und Lasten verteilen können. So ist es z.B. sinnvoll, die Analyse von 750.000 Nachrichtenartikeln auf die 6 Systeme zu verteilen und die Ergebnisse am Ende wieder zusammenzuführen. Über die zweite Netzwerkkarte ist der Server im ACT Netzwerk erreichbar. Da der Server ins ACT Netzwerk eingebunden ist, kann er problemlos über „SSH“ angesprochen werden. Für einen einfachen Datenaustausch wurde für die Anwender ein Netzlaufwerk mithilfe von Samba eingerichtet.

Als Testumgebung werden virtuelle Maschinen mit VMWare betrieben. Hier werden die UseCases des Round-Table entwickelt und gegebenfalls in die produktive Umgebung gehoben. Die virtuellen Maschinen werden mit einem Laufzeit-Backup gesichert und können jederzeit zurückgespielt werden. Da Big Data UseCases in der Regel mit Hilfe von Python und R umgesetzt werden, wird für die Versionierung Git bzw. GitLab eingesetzt.

Um einen konsistentes und effektives Vorgehen zu gewährleisten, wurde im Big Data Lab ein Leitfaden entwickelt, in dem alle UseCases abgebildet werden müssen. Hierzu wurden eine Mindmap und ein Analyseprozess als Vorlage konzipiert. Auch Design Thinking und Scrum finden ihren Einsatz im Lab um sich der Praxis weiter zu nähern.

Zurzeit werden die Daten quasi im Rohformat in einem Data Lake abgelegt um daraufhin in weiteren System verarbeitet oder gespeichert zu werden. (z.B. die NoSQL DB MongoDB). Diese Daten werden für die Analyse im nächsten Schritt vorbereitet und den Analyseverfahren zu Verfügung gestellt. Je nach Analysetechnik müssen die Daten nach der Vorbereitung im Hadoop Cluster, im Arbeitsspeicher oder in gefilterter Form in einer relationalen Datenbank vorgehalten werden. Für die Analysen werden InfoZoom, Spark, Python, R und RapidMiner eingesetzt. Je nach Anwendungsfall werden die Ergebnisse visuell aufbereitet oder in verschiedenen Formaten zur Verfügung gestellt.

Autor: Marco Höher

Für schnelles Feedback.

Der Big Data Express.

Treiben Sie einige Prozesse in den Wahnsinn, statt voran? Manchmal ist es nur ein kleiner Schritt, der Ihnen weiterhelfen kann. Gehen Sie diesen am besten in unsere Richtung.

 Kontakt

Ulrike Pick

Leiterin Business Analytics

Fon +49 (228) 97125 – 20
Fax +49 (228) 97125 – 720
Mob +49 (172) 34 38 060

ulrike.pick@actgruppe.de

jan Dombrowicz Big Data Lab

Jan Dombrowicz

Consultant Business Analytics

Fon +49 (228) 97125 – 0
Fax +49 (228) 97125 – 40
Mob +49 (172) 34 27 710

jan.dombrowicz@actgruppe.de

0

Tragen Sie Ihren Suchbegriff unten ein und drücken die Enter-Taste