Smart Data

Social Media Monitoring leicht gemacht

Soziale Medien haben das Web 2.0 maßgeblich mitgestaltet und ihre Bedeutung in unserer Gesellschaft wächst ungebrochen. Es handelt sich dabei meist um profilbasierte Internetdienste, die die Vernetzung von Benutzern und Inhalten ermöglichen.[1] Die Namen der großen Dienste – Facebook, Youtube, Twitter, Snapchat und Co. – sind längst in unseren täglichen Sprachgebrauch eingeflossen.

Was bedeutet dieser Einfluss für Unternehmen und wie kann man solche Dienste zur Realisierung von Unternehmenszielen nutzen? Das Erstellen qualitativer Inhalte in den sozialen Medien schafft Präsenz für das eigene Unternehmen, aber erst mit Social Media Monitoring eröffnet sich eine ganz neue Informationswelt. Das Monitoring hilft dabei, Kenntnisse über Meinungen und Stimmungen bezüglich der eigenen Produkte und Markenwahrnehmung sowie Informationen über die Konkurrenz zu gewinnen. Im Vordergrund stehen dabei folgende Anwendungsfälle:

  • Imageanalyse
  • Wettbewerbsanalyse
  • Zielgruppenanalyse
  • Lead-Generierung
  • Identifizierung von Trends
  • Kampagnen-Tracking

Diese Auflistung zeigt folgendes ganz eindeutig: Auch für Unternehmen, deren Marketingstrategie nicht primär auf soziale Medien ausgerichtet ist, stellt das Monitoring einen wichtigen Wettbewerbsfaktor im Umfeld der digitalen Transformation dar.

Je nach Budget können unterschiedliche Tools und Dienstleistungen rund um das Social Media Monitoring eingesetzt werden. In dieser Fallstudie soll eine einfache und kostengünstige Lösung zu Data-Mining, -Monitoring und -Visualisierung demonstriert werden, die mit dem Einsatz von Microsoft-Produkten und ohne Programmierkenntnisse auskommt.

Generelle Vorgehensweise:

  1. Erstellung einer Liste von Schlüsselbegriffen (Keyword Set)
  2. Sammeln von Social Media Daten mit Microsoft Flow
  3. Laden und Transformieren mit Microsoft Power BI
  4. Analysieren und Visualisieren mit Microsoft Power BI

 

FALLSTUDIE: SAMMELN VON TWEETS ZUR KOALITIONSBILDUNG FÜR DEN BUNDESTAG 2017/2018

Die letzte Bundestagswahl liegt zwar Monate zurück, die Regierungsbildung hält jedoch an. Von gescheiterten Versuchen zu koalieren, Hunden als Parteimitglieder und „Troll-Debatten“ bis hin zu der im Januar abgelaufenen Übergangsfrist für das Netzwerkdurchsetzungsgesetz hat dieses Thema eine hohe gesellschaftliche Relevanz. Zudem bietet es inhaltlich die Möglichkeit, die gesammelten Daten mit einfachen Textanalyse-Methoden auszuwerten.

SCHRITT 1 – Erstellen einer Liste mit Schlüsselbegriffen

Schlüsselbegriffe können mit unterschiedlichen Methoden und Tools identifiziert werden. Dazu gehören Webanalyse, Umfragen und Expertenbefragung, um nur einige zu nennen. In diesem Beispiel wurden die Ergebnisse unterschiedlicher manueller Twitter-Suchen auf wiederkehrende Hashtags und Substantive untersucht. Folgende Keywords wurden dabei identifiziert:

  • GroKo
  • Koalition
  • BTW17
  • Bundestagswahl

SCHRITT 2 – Sammeln von Social Media Daten mit Microsoft Flow

Anhand der in Schritt 1 identifizierten Keywords wurde ein automatisierter Workflow mit Microsoft Flow eingerichtet. Dieser Dienst ermöglicht das Anlegen eigener Arbeitsabläufe und damit die Automatisierung von repetitiven Aufgaben, wie z.B. dem Abfragen von Tweets. Dabei sind 2.000 Ausführungen im Monat kostenlos.

Die gesammelten Daten wurden direkt in OneDrive als CSV-Datei gespeichert, aber auch eine Anbindung an andere Office365-Anwendungen und zahlreiche weitere, externe Dienste ist möglich. Es gibt es hier einige Einschränkungen zu beachten: So gibt es eine maximale Anzahl von Ausführungen pro Minute, das Ratenlimit der Twitter-API und die Speicherkapazitäten der gewählten Anwendung. Die Anzahl der Tweets kann je nach Keyword sehr schnell große Dimensionen annehmen, sodass selbst als genügend angesehene Speicherkapazitäten plötzlich nicht mehr ausreichen. Hier wurde eine Flow mit zwei Komponenten gewählt:

1. Trigger: Wenn ein neuer Tweet gepostet wird

Flow Trigger

2. Action: Erstellen einer Datei in OneDrive

Flow Action

Beim Erstellen der CSV-Datei sollte man beachten, dass Freitextfelder mit Anführungszeichen versehen werden und ein Separator gewählt wird, der wenig bis gar nicht in den Freitexten verwendet wird, da dieses die nachgeschaltete Textanalyse vereinfacht.

Flow

Nachdem der Flow gespeichert und aktiviert ist, kann man unmittelbar nach Eintreffen des definierten Triggers die Flowausführungen und das Einlaufen der erstellten Dateien in unserem OneDrive Ordner verfolgen. Im nächsten Schritt formen sich die einzelnen Bäume zu einem Wald.

SCHRITT 3 – Laden und Transformieren mit Microsoft Power BI

Microsoft Power BI ist ein Datenanalyse Produkt, dass sowohl als Cloud-basierter Service, als Client-basierte Software sowie als Mobile App zur Verfügung steht. Das Produkt ist seit 2014 auf dem Markt und vereint bekannte, bestehende Microsoft BI-Technologien (Power Query, Power Pivot, Power View und SSRS). Diese Technologien bieten umfangreiche Möglichkeiten zur Zusammenstellung, Veränderung, Berechnung und Visualisierung von Daten. Die Power BI Desktop Version ist derzeit kostenlos erhältlich und wird als Werkzeug in diesem Fallbeispiel eingesetzt.

Es gibt eine Menge an vordefinierten Konnektoren, die ein benutzergeführtes Einladen von Daten ermöglichen. Mit der zugrundeliegenden Programmiersprache M[2] hat man zusätzlich ein Werkzeug zur Hand, um eigene Schnittstellen und Funktionen zu entwickeln. In diesem Fall liegen tausende, gleich strukturierte Dateien im selben Verzeichnis vor und können durch einen einmaligen standardisierten Upload in Power BI integriert werden.

1. Dateien aus Ordner importieren

Dateien mit Fehlern sollen übersprungen werden, um Ladeschwierigkeiten zu vermeiden. Es empfiehlt sich später eine Kontrolle einzurichten, um den Anteil nicht geladener Dateien zu messen. Beim Kombinieren und Bearbeiten der CSV-Dateien im Bearbeitungsmodus stellt man fest, dass Power BI automatisch mehrere Elemente kreiert hat.

Die Funktion wird an einer Stelle nachbearbeitet, damit die vorhandenen Zeilenumbrüche in den Freitexten der Benutzereingaben ignoriert werden. Die Möglichkeit den Parameter in der Benutzeroberfläche zu ändern ist leider noch nicht vorhanden. Den entsprechenden Parameter kann man im erweiterten Editor der Datenabfrage anpassen.

2. Transformationen

Die nun zusammengeführten Einzeldatensätze werden im Bearbeitungsmodus weiter angereichert. Die Spalten werden benannt und zusätzlich kalkulierte Spalten eingefügt. Die Tweets werden zunächst danach kategorisiert, ob diese neuer Content oder ein Retweet sind. Die ersten drei Hashtags und geteilte Links werden extrahiert. Darüber hinaus wird der Twitter-Handle sowie die URL zum jeweiligen Tweet, aus dem Benutzernamen und der Tweet-ID, konstruiert.

Außerdem wird eine separate Tabelle für die ersten drei Hashtags der Tweets mit der zugehörigen Tweet-ID angelegt.

SCHRITT 4 –Visualisieren und Analysieren mit Microsoft Power BI

Um unsere vorbereiteten Daten zu visualisieren, bietet Power BI eine große Anzahl von mitgelieferten Darstellungstypen (Linien-, Säulen-, Streudiagramme u.v.m.). Zusätzlich kann man kostenlose Power BI Visualisierungen vom Marktplatz importieren. Die folgenden Abbildungen zeigen die visuelle Aufarbeitung:

Überblick über die gesammelten Tweets
Für die Darstellung der Entwicklung der Gesamtmenge der gesammelten Tweets wurde ein Balkendiagramm gewählt. Man erkennt deutlich das bisherige Tageshoch der Anzahl gesammelter Tweets am Tag des SPD Mitgliedervotums.

Eine Wordcloud veranschaulicht die 150 meist verwendeten Schlagworte. Außerdem wird ein Gesamtüberblick über die Parameter der Abfrage (Gesamtanzahl, Start der Analyse, Suchbegriffe, Zeitpunkt relativ zum Wahlsonntag) gegeben. Die Karte zeigt die verwendeten Standorte im Benutzerprofil. Unser Keyword „groko“ ist erwartungsgemäß das am häufigsten vorkommende Wort. Ebenfalls erwartungsgemäß werden viele Tweets in den Ballungsgebieten (z.B. das Ruhrgebiet, Berlin und Hamburg) gezählt. Die meisten twittern allerdings aus der nicht weiter definierten Region „Deutschland“.

Autoren-Netzwerkanalyse (alle geteilten Autoren)
Die Tabelle links gibt einen Überblick über die Anzahl der gesammelten Retweets nach Autor. Die Verbindung zwischen Autor und teilenden Nutzern wird im Netzwerkdiagramm dargestellt. Auf der Zeitreihe hat man die Möglichkeit, die Darstellung zeitlich einzuschränken. Man erkennt deutlich mehrere Gruppierungen, die stark miteinander vernetzt sind. An diesen Stellen geht man in die Detailanalyse und identifiziert die Zentren der Cluster und die wichtigsten Verbindungen.

Autoren-Netzwerkanalyse
Die Selektion einer Gruppe von Autoren gibt Aufschluss darüber inwieweit die gewählten Autoren von gleichen Nutzern geteilt werden. Obiges Beispiel selektiert die AFD und die Twitter Nutzer der beiden meistgeteilten Mitglieder der Partei im Bundestag. Man kann deutlich die Nutzergruppen erkennen, die Inhalte der Partei und der Parteimitglieder teilen. Wäre uns die politische Ausrichtung nicht schon bekannt könnten wir daraus Indizien für politische Meinungen von einzelnen Autoren gewinnen. Je nach Anwendungsfall sind unterschiedliche Clusteranalysen möglich (z.B. nach Berufsgruppen oder Haushaltsgrößen)

Ansicht der meist geteilten Tweets
Eine Tabelle zeigt die Tweets nach ihrer Anzahl ihrer gesammelten Retweets geordnet. Durch Auswahl einzelner Tweets können weitere Details erforscht werden. Wer hat den Tweet zuerst geteilt, wie schnell wurde der Tweet geteilt und wo wurde der Tweet am häufigsten geteilt? Die Datenschnittvisualisierung ermöglicht außerdem die gezielte Suche nach relevanten Autoren.

Darstellung der am häufigsten verwendeten Hashtags
Die Tabelle verschafft zunächst einen Überblick über die am häufigsten verwendeten Hashtags und deren Anteil an allen gesammelten Tweets. Dies wird in der Wordcloud grafisch dargestellt. Das Radarchart gibt erneut Aufschluss über die Herkunft nach Standort, wobei sich zeigt, dass die Daten aufgrund der unterschiedlichen Benutzereingaben für gleiche Orte nicht standardisiert sind. Das Streudiagramm zeigt, die zehn wichtigsten Hashtags nach Anzahl der Tweets und die durchschnittliche Anzahl von Followern der Benutzer, die diese verwendet haben.

In diesem Fallbeispiel sollte gezeigt werden, dass man mit einfachen Methoden bereits viele Erkenntnisse aus den zur Verfügung gestellten Daten im Netz ziehen kann. Im nächsten Teil dieser Serie soll die Analyse weiter vertieft werden:
Geplant sind: Textanalyse nach Parteizugehörigkeit, Keyword Analyse nach politischer Richtung, Stimmungsanalyse und Bot Identifikation.

Achtung bei der Verwendung der Daten, da keine Rückkontrolle mit der Twitter API erfolgt, ob ein Tweet gelöscht wurde. Eine automatisierte Einbindung von Inhalten im öffentlichen Raum ohne einen solchen Kontrollmechanismus sollte unbedingt vermieden werden. Lesen Sie bitte die Twitter API developer policies[3]!

Achtung auch bei der vorschnellen Ableitung von Erkenntnissen und Entscheidungen. Man sollte prüfen, ob durch die ursprünglich gewählte Methode und die gewählten Suchbegriffe eine Stichprobenverzerrung auftritt. Beispielsweise könnten durch die gewählten Suchbegriffe nur die Tweets gesammelt worden sein, die einem speziellen politischen Spektrum zuzuordnen sind. Gegebenenfalls sind die Schritte 1,2 und 4 zu wiederholen.