Text-Mining mit Spark

informatik-aktuell.de.

Text-Mining mit Spark

Spark löst viele Probleme, die Entwickler umtreiben: Effizienz, einfache Parallelisierung und Skalierbarkeit, Ausfallsicherheit und umfangreiche Module, und dazu noch eine API in der bevorzugten Programmiersprache.

Apache Spark hat sich in den letzten Jahren für viele Data Science Projekte als die bevorzugte Plattform zur Analyse großer Datenmengen etabliert. Spark ist ein Cluster Computing Framework, d.h. es erlaubt uns auf relativ einfache Weise, Berechnungen über eine große Anzahl Computer parallelisiert auszuführen.

In unserem Artikel Einführung in Spark – ein Text Mining-Projekt auf informatik-aktuell.de geben wir einen ersten, grundlegenden Einstieg und zeigen wie eine Mini-Applikation von ETL zu Analyse aufgebaut werden kann. Als Datenbasis dient uns eine große Menge von Text-Dokumenten für die eine Ähnlichkeitssuche implementiert wird. Wir geben zudem einen Einstieg in Text Mining und zeigen den Einsatz verbreiteter Verfahren wie Stemming und TF-IDF.

Auch in unseren Predictive Maintenance Projekten ist Spark ein wichtiges Tool. Erfahren Sie hier wie wir Spark für einen Kunden aus dem Bereich Laborautomatisierung einsetzen.

2018-07-26T10:11:55+00:001. März 2018|News|