HOW HEALTHY IS YOUR CITY?

Eine Big Data Analyse

Die Visualisierung großer und komplexer Datenmengen ist im Kontext von Datenanalysen ein unverzichtbarer Baustein. Insbesondere wenn es um große Datenmengen geht, wie Sie im Gesundheitssektor vorhanden sind.

Mit der Analyse „How healthy is your city?“ demonstriert Neofonie wie eine verständliche und ansprechende Datenvisualisierung den Zugriff auf umfangreichen Content erleichtert.

Hierzu wurden 56.800.000 Artikel aus Nachrichtenportalen der Jahre 2008 bis 2013 analysiert und die häufigsten Krankheiten in den Städten Berlin, Hamburg, Stuttgart, Dortmund, Frankfurt und Leipzig visualisiert.

21.613.546.189

Wörter aus 56.800.000 Nachrichtenartikel der Jahre 2008-2013 des deutschsprachigen Internets wurden untersucht.

323.860.101

Mal wurden darunter die sechs deutschen Städte Berlin, Hamburg, Stuttgart, Dortmund, Frankfurt oder Leipzig genannt.

376.595

Mal kamen im nahen textuellen Umfeld dieser Großstädte krankheitsrelevante Wörter vor.

Pro Stadt wurden die drei statistisch relevantesten Krankheitsbegriffe weiter analysiert und weitere, häufig auftretende Schlagworte im Umfeld manuell ausgesucht und zugeordnet.

138.462.239

NACHRICHTEN ENTHALTEN

BERLIN

76.848

NACHRICHTEN ENTHALTEN

BERLIN & KRANKHEIT

BERLIN

0,0555011%

Im Wortumfeld der 138.462.239 Nennungen von BERLIN wurde 76.848 mal KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit BERLIN gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit BERLIN und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

100.831.773

NACHRICHTEN ENTHALTEN

HAMBURG

64.954

NACHRICHTEN ENTHALTEN

HAMBURG & KRANKHEIT

HAMBURG

0,0644182%

Im Wortumfeld der 100.831.773 Nennungen von HAMBURG wurde 64.954 KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit HAMBURG gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit HAMBURG und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

19.427.128

NACHRICHTEN ENTHALTEN

STUTTGART

62.187

NACHRICHTEN ENTHALTEN

STUTTGART & KRANKHEIT

STUTTGART

0,3201039%

Im Wortumfeld der 19.427.128 Nennungen von STUTTGART wurde 62.187 mal KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit STUTTGART gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit STUTTGART und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

21.513.982

NACHRICHTEN ENTHALTEN

DORTMUND

58.108

NACHRICHTEN ENTHALTEN

DORTMUND & KRANKHEIT

DORTMUND

0,2700941%

Im Wortumfeld der 21.513.982 Nennungen von DORTMUND wurde 58.108 mal KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit DORTMUND gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit DORTMUND und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

33.299.769

NACHRICHTEN ENTHALTEN

FRANKFURT

72.124

NACHRICHTEN ENTHALTEN

FRANKFURT & KRANKHEIT

FRANKFURT

0,2165901%

Im Wortumfeld der 33.299.769 Nennungen von FRANKFURT wurde 72.124 mal KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit FRANKFURT gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit FRANKFURT und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

10.325.210

NACHRICHTEN ENTHALTEN

LEIPZIG

42.374

NACHRICHTEN ENTHALTEN

LEIPZIG & KRANKHEIT

LEIPZIG

0,4103936%

Im Wortumfeld der 10.325.210 Nennungen von LEIPZIG wurde 42.374 mal KRANKHEITEN gefunden.

Diese vorgegebenen Begriffe zu KRANKHEITEN wurden oft zusammen mit LEIPZIG gefunden. Als Zahl angegeben ist die Häufigkeit.

Diese Begriffe wurden häufig zusammen mit LEIPZIG und der jeweiligen KRANKHEIT gefunden. Als Zahl angegeben ist die Häufigkeit.

DAS KONZEPT

ZUM HACKATHON Im Rahmen eines Hackathons zur Big Data Week 2013 haben sich Entwickler aus der gesamten Welt und ein interdisziplinäres Team Neofonie mit der Frage "How Healthy is your City?" beschäftigt und durch Datenanalyse und deren Visualisierung beantwortet und präsentiert.

Während in UK für die Datenanalyse auf eine öffentlich zugängliche Datenbasis aus dem Gesundheitswesen zurückgegriffen werden konnte, musste das deutsche Entwickler-Team querdenken. Da in Deutschland praktisch keine Gesundheitsdaten öffentlich zur Verfügung stehen, wurden Artikeltexte aus Nachrichten-Portalen analysiert. Die Vorgehensweise und die Visualisierung gilt als besonders innovativ und wurde von der Hackathon Jury besonders gewürdigt.
ZU DEN DATEN Insgesamt wurden 56.800.000 Artikel von Nachrichtenportalen der Jahre 2008 bis 2013 analysiert. Untersucht wurden mögliche Krankheiten in den Städten Berlin, Hamburg, Stuttgart, Dortmund, Frankfurt und Leipzig. Berücksichtigt wurden 16.036 mögliche Bezeichnungen für insgesamt 2.327 Krankheiten aus einer medizinischen Ontologie. Für jede der sechs Städte wurden die statistisch relevantesten TOP-3 Krankheitsbegriffe evaluiert (Log Likelikood Ratio nach Dunning [1993] adaptiert nach Terra & Clarke [2003]). Für jede der sechs Städte konnten acht Top-Krankheitsbegriffe ermittelt werden, aus denen insgesamt acht interessante, konkurrente Begriffe herausgegriffen wurden. Es enstand eine sog. Trigramm-Matrix, die optisch verständlich und ansprechend visualisiert wurden.
LITERATUR E. Terra, C. L. A. Clarke. 2003. Frequency Estimates for Statistical Word Similarity Measures. Proceedings of HLT-NAACL 2003 T. Dunning. 1993. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19:61–74.
TEAM Das Team setzt sich aus Mitarbeitern der Abteilungen Forschung, UX-Design und Frontendentwicklung zusammen.

Design:
Thomas Ginter
Tillmann Dierichs

HTML:
Igor Savchenko

Big Data Processing:
Till Machens
Walter Tietze
Rasmus Hahn
Dimitri Goldin
Heiko Ehrig

with the help of Sascha Jonas and Martin Gerlach