Die Methode Wissenschaft, mit der man Wissenschaft verhindert – zum Ersten

Die Wahrheit ist selten rein und nie einfach.

Oscar Wilde

In diesem Beitrag stelle ich eine Methode vor, die in allen Wissenschaften bewusst oder unbewusst angewendet wird und zu fehlerhaften Erkenntnissen führt. Später werde ich weitere Methoden erläutern, die alle mit der Statistik zusammenhängen. Am Ende zeige ich auf, wie die Methode in einer lebenswichtigen Frage angewendet wurde: Nicht-visuelle Wirkungen des Lichts. Diese betreffen Wirkungen, die von einer Unannehmlichkeit bis hin zu Krebsanfälligkeit reichen. Die Skala der Probleme und medizinischer Wirkungen wird hier behandelt.

Die Methode wird, leicht scherzhaft, P-Hacking genannt. P steht für Wahrscheinlichkeit, Hacking für das Bestreben, in einer Studie eine Hürde für die statistische Signifikanz zu nehmen. Deswegen heißt die Methode auch Signifikanzwahn. Ein Ergebnis wird nach der Konvention als bedeutsam anerkannt, wenn die Irrtumswahrscheinlichkeit unter 5% liegt oder p ≤0,05 beträgt. Geringere Irrtumswahrscheinlichkeiten, p≤0,01 oder p≤0,001, gelten als noch sicherer.

Dabei kann es vollkommen irrelevant sein, z.B. wenn es beispielsweise mit einer sehr hohen Zahl von Probanden ermittelt wurde. So beträgt die signifikante Differenz zwischen zwei Gruppen mit einer Stärke von 1000 Personen auf einer 5-stelligen Skala und einer Streuung von 1 ganze 0,0876. Man hätte Schwierigkeiten, die Differenz einzuzeichnen. Aber der Forschende will ein signifikantes Ergebnis vorweisen. Dabei ist dies wissenschaftlich vollkommen egal, denn dort kommt es auf eine saubere Methodik an und nicht auf ein Ergebnis, das auf wackeligen Füßen steht.

Der P-Hacker führt z.B. eine Reihe von Versuchen durch und sucht sich daraus die passenden Ergebnisse aus. So kann man z.B. nachweisen, dass zwischen dem Käseverzehr beim Frühstück und Strangulieren durch Bettlaken in der Nacht zuvor eine signifikante Beziehung existiert. Signifikant, aber sonst???

Würden solche Dinge nur ungeübten Anfängern passieren, könnte man gut damit leben. Leider unterlaufen selbst wichtigen Gremien, die sehr bedeutsame Fragen beurteilen, fatale Fehler wie folgender. Es geht um die Nachtarbeit, eine der Geißeln der Zivilisation. Ausgewiesene Experten der Nacht- und Schichtarbeit haben 2020 eine Leitlinie für Nacht und Schichtarbeit [hier] herausgearbeitet, in der eine unumstößliche Erkenntnis verkündet wird: „Eine Querschnittstudie (n=430) von Violanti et al. (2012) kommt zu dem Ergebnis, dass das Verletzungsrisiko bei Polizisten und Polizistinnen in der Nachtschicht 1,7-mal höher ist als die Verletzungsgefahr in der Tagschicht (IRR 1,72; 95%KI 1,26–2,36, p<0,001) …“ Irrtum nur in 0,1 % der Fälle möglich. Gut gehackt? Sehr gut sogar, denn IRR = 1,72 bedeutet etwa „Das Ergebnis hängt nicht davon ab, wer die Messung oder Bewertung vornimmt. Die Messung ist objektiv und zuverlässig.“

Wie soll man sich aber das Ergebnis erklären? Ob die Polizist:innen nachts die Brötchen anders schmieren als zum Frühstück? Oder wie verletzen sie sich überhaupt? Da diese Arbeitsmedizinische Leitlinie dazu helfen soll, die gesundheitlichen Folgen der Schichtarbeit zu vermeiden oder wenigstens zu mildern, wäre es doch nicht schlecht zu wissen, was zu einer häufigeren Verletzung von Polizist:innen in der Nacht führt. Der Laie kennt die Gründe bestens, der Fachmann tappt im Dunkeln. Die Polizeioberen müssen sich einen Reim darauf machen. Ob die nur darauf gewartet haben, dass Mediziner ihnen erklären, warum ihr Personal nachts höher gefährdet ist als tagsüber?

Mit einer ähnlichen Groteske wartet eine Studie auf, die in einer Tiroler Klinik durchgeführt wurde, um die Bedeutung von HCL (Human Centric Lighting) nachzuweisen. Es wurde gezeigt, dass bei Anwendung dieser Beleuchtung Patienten einer gerontopsychiatrischen Station eines Tiroler Krankenhauses weniger lange fixiert werden müssen. Es wurde studiert, wie häufig der Patient nach einem Sturz ansprechbar war und wie häufig dieser fixiert werden musste. Signifikant also. Damit das Ergebnis auch jeder glaubt, finden sich auch Diagramme in der Publikation, die das Geschehen in zahlenmäßige Relationen bringen.

Das Bild will zeigen, wie sich die betrachteten Fälle (was 3000 bedeuten steht leider nicht im Original) über 24 Stunden unterschiedlich je nach Art der Beleuchtung entwickeln.

Das Projekt sollte übrigens auch dazu dienen, eine Wissensbasis zu erstellen, wie dynamische Lichtsysteme in psychiatrischen Anstalten nicht-visuell wirken. Was sucht dies aber in der lichttechnischen Literatur? Ob die Studie vom  Marketing für Leuchten bezahlt worden ist? Der Verdacht lässt sich nicht von der Hand weisen, denn dynamisches Licht bedeutet, dass man zu den Lampen wesentlich teurere Steuergeräte verkauft.

Die besagte Studie ist eine von vielen, die herangezogen wurden, um einen internationalen Standard zu erstellen, der eine neue Beleuchtung für Arbeitsplätze rechtfertigen soll: integrative Beleuchtung (zu dieser Beleuchtung mehr hier) Es wurden Studien zusammengestellt, die sich wie folgt verteilen. Hier eine Auflistung der Quellen nach Thema:

  • Therapie: 3 Objekte, davon eines Delirium
  • Krebsrisiko: 3 Objekte
  • Demenz: 4 Objekte
  • Lernerfolg: 3 Objekte
  • Hormonforschung: 2 Objekte
  • Gemütszustände: 6 Objekte
  • Schlaf und Schläfrigkeit: 21 Objekte (von insgesamt 63)
  • Gesundheit: 10 Objekte (im Titel oder Publikationsorgan)

Alle diese Publikationen haben Signifikantes dieser oder jener Art ergeben. Was sagen sie aber zur Beleuchtung von Arbeitsplätzen aus?  Hier hört das P-Hacken auf und der Ernst des Lebens an. Man muss nachweisen, dass ein statistisch signifikantes Ergebnis bedeutsam ist (Relevanznachweis). Dann kommt der wesentlich schwierigere Teil, die Validation. Darf man aus einer Studie, die nachweist, dass eine dynamische Beleuchtung die Demenz verhindert, Konsequenzen für die Beleuchtung von Schulen oder Arbeitsplätzen ziehen?

Gewöhnlich hört der P-Hacker auf, wenn er gezeigt hat, dass Menschen auf dynamisches Licht – positiv – reagieren. Statistisch gesehen ... Später liest sich das abgeleitete Ergebnis etwa so an: „Integrative Beleuchtung kann ... die Leistungsfähigkeit in den nachfolgenden Tagen positiv beeinflussen.“ … wie aus 212 angeführten Studien ersichtlich. (aus ISO/TR 21783 Light and lighting — Integrative lighting — Non-visual effects (Licht und Beleuchtung – Integrative Beleuchtung – Nicht-visuelle Effekte), übersetzt vom Autor)

Dass die 212 Studien mit signifikanten Ergebnissen, auf denen die Aussagen von ISO/TR 21783 beruhten und beruhen, bei der Überarbeitung um 183 reduziert wurden, steht nirgendwo geschrieben. Man hat zudem 34 Neue hinzugezogen, aber wie durch ein Wunder blieben alle Aussagen erhalten. Das Letztere traut sich auch der P-Hacker nicht, er pickt nur Passendes zusammen. Es ist eine andere Geschichte, die getrennt erzählt werden muss.

(Gesamtheit aller statistischen Kniffe hier zu lesen)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.