Die Idee, Suchbegriffe von Internetrecherchen zur Voraussage von Trends zu nutzen, ist nicht ganz neu. So ist etwa die Häufigkeit der Suche nach bestimmten Produkten ein guter Indikator für die späteren Verkaufszahlen dieser Waren. Auch Grippewellen kündigen sich durch entsprechende Suchbegriffe an. Berufsbezogene Schlagwörter geben Aufschluss über die Arbeitslosenrate und die Veränderung der Häufigkeit bestimmten Suchbegriffen kann als Frühwarnsignal für Bewegungen am Aktienmarkt gelten. Nun ist die Aussagekraft solcher Ableitungen freilich beschränkt. Denn in all diesen Fällen handelt es sich um bekannte Unbekannte: Die Frage ist klar, die Herausforderung besteht lediglich darin, die Antwort zu finden. Viel interessanter sind unbekannte Unbekannte, also Fragen, die man gar nicht zu fragen wusste. Solche Entdeckungen erweitern den Horizont und bringen daher einen wahren Erkenntnisgewinn.
Wie aber entdeckt man neue Fragen? Die Clusteranalyse stellt nicht einzelne Suchbegriffe in den Fokus, sondern untersucht Wörter und ihre Beziehung zu anderen Wörtern. Im Grunde geht es um Wahrscheinlichkeiten: Wie wahrscheinlich oder unwahrscheinlich ist es, dass zwei Begriffe zusammen auftauchen? Sich verändernde Muster von Wahrscheinlichkeiten deuten auf neue Beziehungen hin. Auf Inhalte sozialer Medien angewandt, verspricht diese Methode einiges an Voraussagekraft. Unternehmen könnten auf diese Art und Weise einen besseren Einblick in zukünftige Nachfrageentwicklungen erhalten. Im Bereich der Produktentwicklung kann die Social Media Clusteranalyse Hinweise auf Kundenbedürfnisse geben: Cluster, die sich rund um Beschwerden und Probleme oder fehlende Funktionalitäten bilden, sind deutliche Hinweise auf den Kundenwunsch eines neuen Produktfeatures.
Noch haben Maschinen ihre Probleme, aus Texten die korrekte Bedeutung abzuleiten. Überhaupt gibt ihnen heute noch das Verarbeiten von natürlicher Sprache große Rätsel auf, etwa Sarkasmus zu erkennen und richtig zu deuten. Aber immer besser werden Maschinen imstande sein, aus der wachsenden Datenflut brauchbare Informationen abzuleiten. Und je mehr Persönliches auf den sozialen Netzwerken geteilt wird, desto präziser werden Tweets, Blogs, Suchanfragen und Facebookseiten das Kundenverhalten voraussagen.