informatik-aktuell.de.

Text Mining mit Spark

Spark löst viele Probleme, die Entwickler umtreiben: Effizienz, einfache Parallelisierung und Skalierbarkeit, Ausfallsicherheit und umfangreiche Module. Und dazu noch eine API in der bevorzugten Programmiersprache.

Apache Spark hat sich in den letzten Jahren für viele Data Science-Projekte als die bevorzugte Plattform zur Analyse großer Datenmengen etabliert. Die Plattform ist ein Cluster Computing Framework. Es erlaubt uns auf relativ einfache Weise, Berechnungen über eine große Anzahl Computer parallelisiert auszuführen.

Hierzu haben wir den Artikel "Einführung in Spark – ein Text Mining-Projekt" auf informatik-aktuell.de veröffentlicht. Dort geben wir einen ersten, grundlegenden Einstieg und zeigen, wie Du eine Mini-Applikation von ETL zur Analyse aufbaust. Als Datenbasis dient uns eine große Menge von Text-Dokumenten, für die eine Ähnlichkeitssuche implementiert wird. Wir geben zudem einen Einstieg in Text Mining und zeigen den Einsatz verbreiteter Verfahren wie Stemming und TF-IDF.

Auch in unseren Predictive Maintenance Projekten ist Spark ein wichtiges Tool. Erfahren Sie hier, wie wir es für einen Kunden aus dem Bereich Laborautomatisierung einsetzen.