Data Mining

Data Mining

Herausforderungen großer Datenbestände


Industrie 4.0, Internet of Things, und System of Systems sind drei Schlagworte welche zur Zeit heiß diskutiert werden. Was diese drei Begriffe mit sich bringen ist eine immer stärkere Vernetzung von Systemelementen und Systemen und damit werden auch immense Mengen an Daten generiert. Die Analyse dieser Datenberge stellt quer durch alle Branchen und Unternehmensbereiche neue Herausforderungen und es bedarf dazu spezieller statistischer Methoden. Unternehmen welche diese vorhandene Information können Wettbewerbsvorteile generieren und so konstantes Wachstum auch in Zukunft sicherstellen.
 
 

Definition von Big Data Data Mining und Predictive Analytics

 
Der englischsprachige Begriff Big Data (von „groß“ und „Daten“) bezeichnet Datenmengen, welche so groß sind, um sie mit manuellen und klassischen Methoden der Datenverarbeitung auszuwerten. Der traditionellere Begriff im Deutschen ist Massendaten. Big Data ist häufig der Sammelbegriff für digitale Technologien, die in technischer Hinsicht für die neue Ära digitaler Kommunikation und Verarbeitung und in sozialer Hinsicht für den gesellschaftlichen Umbruch verantwortlich gemacht werden.

Unter Data Mining Analytics verstehen wir die Extraktion von Wissen aus großen Datenmengen, das bisher unbekannt aber potentiell nützlich ist. Ziel ist es mit systematischer Anwendung statistischer Verfahren Querverbindungen, Muster und Trends zu erkennen.

Als Predictive Analytics bezeichnet man auf Basis gesammelter Daten errechnete mathematische Modelle, welche es Systemen erlauben Prognosen zu treffen. Bei Predictive Analytics Verfahren werden mathematische Modelle anhand eines Datensatzes trainiert und anschließend an einem unbekannten Datensatz validiert. Ziel ist es, dass dieser Algorithmus eine möglichst gute Anpassung an die zu erfüllende Aufgabe erreicht, um eine Vorhersage von Ereignissen zu ermöglichen. Anwendung findet Predictive Analytics vor allem im Bereich Machine Learning. Die bekanntesten Predictive Verfahren sind neuronale Netze und Ensemble Modelle. 
 
 

Data Mining Analytics als Disziplin von Business Intelligence

 
Der Begriff Business Intelligence, Abkürzung BI, wurde ab Anfang bis Mitte der 1990er Jahre populär und bezeichnet Verfahren und Prozesse zur systematischen Analyse (Sammlung, Auswertung und Darstellung) von Daten in elektronischer Form. Ziel ist die Gewinnung von Erkenntnissen, die in Hinsicht auf die Unternehmensziele bessere operative oder strategische Entscheidungen ermöglichen.
Dies geschieht mit Hilfe analytischer Konzepte und entsprechender Software. Nun Bedarf es in einem Unternehmen einerseits Systeme zur Sammlung und Verwaltung von Daten wie Apache Hadoop. Darüber hinaus ist auch Software zur Analyse dieser Daten notwendig. Die bekanntesten Software Tools für Data Mining Analytics sind JMP, Rapid Miner und R.

CRISP-DM Process Model

Das CRISP-DM Process Model als standardisierte Data Mining Vorgehensweise



Ein analytisches Konzept zur CRISP-DM steht für Cross-Industry Standard Process for Data Mining und ist ein Prozess Modell, welches der üblichen Vorgehensweise eines Data Mining Experten bzw. Data Scientist entspricht.
In der ersten Phase geht es um Business Understanding, also darum das Projektziel aus Geschäftssicht zu verstehen und zu beschreiben. Wichtig ist hier, dass der Kunde nicht der Data Mining Analyst seine Anforderungen beschreibt. Die Data Understanding Phase hat das Ziel die anfänglich gesammelten Daten zur verstehen und hinsichtlich deren Qualität zu beurteilen. In der Data Preparation Phase wird der endgültige Datensatz aufbereitet, mit welchen in der Modeling Phase das mathematische Modell mit der besten Anpassung bestimmt wird. Bevor man in der Deployment Phase die Ergebnisse dem Kunden übergibt, müssen diese in der Evaluate Phase auf deren Eignung in der Anwendung überprüft werden.

Ausbildung Data Mining Analyst

 
Bei unserer Ausbildung zum Data Mining Analyst erhalten Sie einen Überblick über die gängigsten Tools und Methoden zum Thema Big Data Analysis, Data Mining und Predictive Analytics. Sie erlernen die Vorgehensweise anhand des CRISP-DM sowie statistische Verfahren wie Cluster Analyse, PCA, CART und neuronale Netze. Mit Hilfe von praxisnahen Fallbeispielen werden Ihnen die einzelnen Themengebiete spannend und interaktiv näher gebracht. Entdecken und erlernen Sie bei uns die Tools für Data Mining und Big Data Analysis und werden Sie in nur 6 Tagen zum Experten für die Analyse großer Datenbestände.