Big Data – Es muss nicht immer Hadoop sein

Big Data

Wenn von Big Data die Rede ist, ist damit meistens das Apache Hadoop Ökosystem gemeint. Hierbei handelt es sich um eine Sammlung von OpenSource Tools, die sich rund um das verteilte Dateisystem HDFS und den Hadoop Kern (MapReduce) angesammelt haben. Der Big Data Ansatz von Hadoop wird als Scale Out bezeichnet. Scale Out definiert die horizontale Skalierung eines Systems, aus der Hardwaresicht. Dies bedeutet, dass bei zu geringer Rechenleistung durch das einfache Hinzufügen weiterer Server eine Erweiterung des Clusters vorgenommen werden kann.

Big Data Technologien werden aber auch in anderer Form angeboten. Im Gegensatz zum Scale Out, wird beim Scale Up einem bereits bestehenden System mehr Leistung hinzugefügt. Dies geschieht meist in Form leistungsfähigerer Hardware für das System (mehr RAM, CPU oder Speicherplatz). Scale Up Ansätze werden häufig von klassischen Anbietern angeboten und sind mit höheren Kosten verbunden. Beispiele wären hier z.B. eine leistungsfähigere Datenbank von IBM, Microsoft oder Oracle.

Microsoft’s R Server

Microsoft hat im Frühling 2015 Revolutionary Analytics, ein auf R spezialisiertes Unternehmen, übernommen und hat es sich zum Ziel gemacht R Enterprise-fähig zu machen.

R

Bei R handelt es sich um eine statistische Open Source Programmiersprache, mit einer sehr großen Community. R ist vor allem für seine großartigen Visualisierungsmöglichkeiten bekannt und ist unter Statistikern, sowie Wissenschaftlern sehr beliebt. Ein großer Teil der Universitäten hat ihren Lehrplan mittlerweile von SPSS (Ein ähnliches Produkt, welches von IBM übernommen wurde) auf R umgestellt.

R hat mehr als 2,5 Millionen Anwender und stellt mehr als 7000 Algorithmen zur Verfügung.

Grenzen von R

Alle Berechnungen von R werden im Arbeitsspeicher umgesetzt, wodurch die Analysen auch durch diesen begrenzt sind. Gerade in Zeiten von Big Data, führt dies dazu, dass ein in R entwickelter Prototyp in der produktiven Umgebung an seine Grenzen stößt und gegebenenfalls in eine andere Sprache bzw. Technologie migriert werden muss. Hier setzt Microsoft mit verschiedenen Möglichkeiten an.

Microsoft R

Microsoft bietet mit Microsoft R Open (MRO) eine erweiterte Version von R an. Neu ist, dass auch Microsoft seine R Distribution unter der Open Source Lizenz zur Verfügung stellt.

MRO unterstützt alle bestehenden Bibliotheken und erweitert das Portfolio um eigene Pakete. Des weiteren unterstützt MRO Multithreading (Mehrere Prozessoren) und ist somit von Haus aus leistungsfähiger als R. Bei einem Scale Up lässt sich also die Leistung schneller erhöhen als bei R selbst.

Microsoft R Server

Microsoft bietet aber nicht nur einen eigenen R Clienten, sondern erweitert das gesamte Analytics Portfolio um R. Unter anderen bietet Microsoft einen R Server an, um weitere Enterprise Eigenschaften zur Verfügung zu stellen. Der R Server ist nicht nur als Stand-Alone, sondern auch als integrierter Teil des allseits bekannten SQL Server, als Teradata Appliance, für Apache Hadoop und Apache Spark vorhanden. Somit lässt sich die Performance beliebig durch ein Scale Up oder eben ein Scale Out steigern.

Damit erhält R durch Microsoft Unterstützung für leistungsstarke, statistische Analyse, Machine Learning Szenarien und für die Verarbeitung von sehr großen Datenmengen.

Was heißt das für den Anwender?

Der Data Scientist muss sich für seine Analysen letztendlich keine Gedanken darübermachen, welche Technologie in der produktiven Umgebung eingesetzt wird. Mit Hilfe der RevoScaleR Bibliothek werden die Funktionen der R Server Engine angesprochen und quasi übersetzt, so dass der Workload effizient und performant in der darunterliegenden Umgebung ausgeführt werden kann. Dabei ist egal, ob es sich um einen SQL Server, einen Hadoop oder einen Spark Cluster handelt. 

Autor: Jan Dombrowicz

Für schnelles Feedback.

Der Big Data Express.

Treiben Sie einige Prozesse in den Wahnsinn, statt voran? Manchmal ist es nur ein kleiner Schritt, der Ihnen weiterhelfen kann. Gehen Sie diesen am besten in unsere Richtung.

 Kontakt

Ulrike Pick

Leiterin Business Analytics

Fon +49 (228) 97125 – 20
Fax +49 (228) 97125 – 720
Mob +49 (172) 34 38 060

ulrike.pick@actgruppe.de

jan Dombrowicz Big Data Lab

Jan Dombrowicz

Consultant Business Analytics

Fon +49 (228) 97125 – 0
Fax +49 (228) 97125 – 40
Mob +49 (172) 34 27 710

jan.dombrowicz@actgruppe.de

0

Tragen Sie Ihren Suchbegriff unten ein und drücken die Enter-Taste