Wider die Inflation von regionalen Vergleichen

Wir kennen es vermutlich alle: In den Medien wird eine neue Studie vorgestellt und die Ergebnisse sind nach Regionen differenziert dargestellt. Diese Darstellung – zumeist als Karte – weckt sofort unser Interesse, weil jeder sich fragt: „Wie hat meine Heimatregion abgeschnitten?“

Auffällig ist dabei, dass diese Form der Datenaufbereitung heute viel häufiger als früher in den Medien auftaucht. Woran mag das liegen? – Antworten können natürlich nur auf Vermutungen basieren. Es liegt aber auf der Hand, dass vor allem drei Gründe dafür verantwortlich zeichnen: Zum ersten können heute Online-Befragungen zumeist deutlich günstiger realisiert werden als vergleichbare schriftliche, telefonische oder Face-to-Face-Befragungen. Zum zweiten liegen heute massenweise Daten digital in Unternehmen und Organisationen vor, die sich leicht regional auswerten lassen. Beide Aspekte führen dazu, dass schlicht mehr Daten als Grundlage für vielfältige regional differenzierte Auswertungen zur Verfügung stehen. Zum dritten ist es heute sehr leicht, regional aufbereitete Daten kartografisch darzustellen, so dass viele Presseerklärungen diese bereits fertig aufbereitet für die Medien – quasi mundgerecht – zur Verfügung stellen. Für die Medien ist es also einfach, den „Eye-Catcher“ Karte einzusetzen und – wie oben angesprochen – darüber ein großes Interesse beim Leser oder Zuschauer zu wecken. Die Möglichkeit, in Onlinemedien interaktive Elemente in die Karten einzubauen, kommt noch hinzu.

Die magische Grenze von 1.000 Befragten

Nun kann man fragen, ob dies nicht eigentlich eine positive Entwicklung darstellt. Schließlich können Vergleiche zwischen den Regionen dazu genutzt werden, maßgeschneiderte Problemlösungen für unterschiedliche Regionen zu entwickeln. Grundsätzlich mag man dem zustimmen, allerdings fällt bei vielen Regionalvergleichen auf, dass die Datenbasis ganz und gar nicht dem entspricht, was man als Mindestanforderungen an statistische Datenaufbereitungen bezeichnen könnte. Das größte Problem liegt vermutlich darin , dass sich im Bereich der Marktforschung hartnäckig eine zauberhafte Zahl hält, die sich auf die Anzahl der Befragten bezieht: Werden (gut) 1.000 Menschen befragt und dabei mindestens die Verteilung von Geschlecht , Alter und Region in der Stichprobe in Bezug auf die Grundgesamtheit kontrolliert, wird eine Befragung als „repräsentativ“ bezeichnet. Jeder Statistiker weiß, dass es die magische Grenze von 1.000 Befragten nicht gibt, um Repräsentativität sicherzustellen. Bei den Auftraggebern derartiger Befragungen hingegen wirkt diese Grenze fast magisch, d.h. sie muss überschritten werden. Mehr Befragte werden allerdings vor dem Kostenhintergrund auch nicht für notwendig angesehen. De facto führt dies dazu, dass der überwiegende Anteil von Befragungen auf gut 1.000 Teilnehmern basiert. Wenn nun aber regional differenzierte Analysen durchgeführt werden, ist schnell ersichtlich, dass die Fallzahlen pro Region extrem klein werden. Wird beispielsweise auf Bundeslandebene ausgewertet, lässt dies für Bremen 8 und das Saarland 12 Befragte erwarten. Selbst wenn diese beiden Bundesländer nicht einzeln ausgewiesen werden, überschreiten die Befragungszahlen für neun weitere Bundesländern nicht die Grenze von 50 Befragten. Selbst wenn diese Daten optimal, d.h. verzerrungsfrei, ausgewählt wären, sollte es offenkundig sein, dass Vergleiche zwischen den Bundesländern auf dieser Datenbasis wenig sinnvoll sind.

Das Problem der Farbwahl

Dieses Problem trifft schon auf einen großen Teil aller nach Regionen aufgeschlüsselten Studien zu. Nun muss man einigen Institutionen zugutehalten, dass Ihnen die absoluten Befragungszahlen wohl selber auch als zu gering erscheinen. So werden zum Teil Bundeslandgruppen ausgewertet. Dass aber auch dabei Vorsicht geboten ist, zeigt exemplarisch die folgende Karte (Abb. 1), die aus der Studie „Bleib locker, Deutschland! – TK-Studie zur Stresslage der Nation“ entnommen ist.

– zum Vergrößern bitte auf die Grafik klicken –

Die Karte stellt (scheinbar) pro Bundesland dar, wie viele von 100 Menschen „unter Druck stehen“. Der Grafik selber ist nicht zu entnehmen, wie viele Befragte der Auswertung zugrunde liegen. Dieses findet sich im Endkapitel zum Studienaufbau: Die bereits bekannten obligatorischen 1.000 Befragten.

Bei einem schnellen Blick auf die Karte scheinen große Unterschiede zwischen den einzelnen Bundesländern vorzuliegen, denn die Einfärbung der einzelnen Bundesländer variiert von dunkelblau, über braun bis dunkelrot. Und auch im Begleittext werden die Unterschiede deutlich hervorgehoben. Allerdings mag nach intensiverer Betrachtung auffallen, dass Nachbarregionen zum Teil identische Werte aufweisen. Und tatsächlich findet sich im Kapitel zum Studienaufbau der Hinweis, dass Bundeslandgruppen ausgewertet wurden. Konkret wurden sieben Bundeslandgruppen ausgewertet, die den jeweiligen Einfärbungen entsprechen (lediglich Bayern wurde zusätzlich von Hessen, Rheinland-Pfalz und dem Saarland differenziert). Die Bundeslandgruppen umfassen zwischen 96 und 216 Befragte.
Anhand der dargestellten exemplarisch ausgewählten kartografischen Auswertung lassen sich die weiteren Probleme der regionalen Auswertungen deutlich machen: Zum ersten suggerieren die extremen Farbunterschiede in der Karte erhebliche Unterschiede zwischen den Regionen. Vergleicht man dies mit einer entsprechenden Karte, bei der die Farbgebung anhand einer Einfärbung von Rot bis Gelb über das gesamte mögliche Wertespektrum erfolgt, so wird deutlich, wie stark die Farbskalierung Einfluss auf den ersten Eindruck der regionalen Unterschiede hat.

– zum Vergrößern bitte auf die Grafik klicken –

Das Problem der Signifikanz bei Bundeslandgruppen

Zum zweiten sind die dargestellten Unterschiede – natürlich auch aufgrund der geringen Fallzahlen je Region – lediglich zwischen den Regionen im Nord-Westen und Süden statistisch schwach signifikant auf dem 5%-Niveau. Ansonsten liegen keine signifikanten Unterschiede vor. Auf dieses Problem wird allerdings in der TK-Studie – wie leider üblich – an keiner Stelle hingewiesen.

Das Problem der Streuungsreduktion

Gleiches gilt für einen dritten Punkt: Bei einfachen deskriptiven Auswertungen nach Regionen differenziert werden häufig nur aufbereitete Daten präsentiert. So auch bei der TK-Studie. Tatsächlich ist in den zugrundeliegenden Befragungen gar nicht danach gefragt worden, ob eine befragte Person „unter Druck steht“, sondern nach der Häufigkeit, in der eine befragte Person unter Druck steht. Nur ist die zugrundeliegende 4er-Skala (häufig, manchmal, selten, nie) schlicht zusammengefasst worden, wobei die Antworten „häufig“ und „manchmal“ als „unter Druck stehen“ gewertet wurden. Dieses Vorgehen heißt aus statistischer Sicht aber, dass die in den Daten zugrundeliegende Streuung in den Antworten durch die entsprechende Datenverdichtung reduziert wurde, ohne dass der geneigte Leser dies erfährt. Und tatsächlich gibt es in den zugrundeliegenden Daten mit 4er-Skala keine Ländergruppen-Kombinationen, die signifikante Unterschiede auf dem Niveau 5%-Irrtumswahrscheinlichkeit aufweisen.

Das Problem der repräsentativen Auswahl in den Teilen

Abschließend lässt sich ein vierter Punkt kritisch hinterfragen. Die Aussagen zur Repräsentativität der zugrundeliegenden Daten im vorgestellten Fall beziehen sich lediglich auf das gesamte Gebiet Deutschlands. Aber ob auch in den einzelnen Regionen die Befragten in ihrer Struktur der dortigen Wohnbevölkerung entsprachen, wird nicht dokumentiert und wird sich bei knapp 100 bis gut 200 Befragten pro Region auch kaum valide untersuchen lassen. Dieses birgt aber die Gefahr, dass sich die Unterschiede in den Regionen durch selektive Stichproben erklären. So fühlen sich beispielsweise Frauen häufiger unter Druck stehend, genauso wie Befragte im mittleren Alter. Weist der Nord-Osten also vielleicht geringe Stress-Werte auf, weil mehr Jüngere und Ältere befragt wurden? Oder sind die Stress-Werte für Baden-Württemberg vielleicht besonders hoch, weil mehr Frauen als Männer befragt wurden? Zumindest auszuschließen ist dies nicht, denn die Studie weist keine Angaben hierzu aus.

Fazit

Zusammenfassend lässt sich festhalten, dass das Hauptproblem vieler Befragungsstudien mit regional ausgewiesenen Daten darin liegt, dass die Datengrundlage viel zu klein ist, um seriös vergleichende Daten zwischen den Regionen auszuweisen. Dieses führt dazu, dass sowohl in den Medien als auch bei den politisch Verantwortlichen einzelne Ergebnisse kontrovers diskutiert werden und im schlimmsten Fall entsprechende Maßnahmen ergriffen werden, ohne dass es dafür eine statistisch valide Grundlage gibt. Und man sollte sich dabei daran erinnern, dass Statistik dazu dienen sollte, große Informationsmengen gezielt zu kondensieren, um zentrale Informationen herauszufiltern. Dies Ziel wird durch unbedachte regionale Auswertungen konterkariert.