Sonntag, 16. August 2020
Der Bedingte-Relative-Häufigkeits-Verwechsel-Fehlschluß

Frage:

Betrachten wir eine entsprechend den Vorgaben Heinrich Cramers fachgerecht ausgeführte Hexenprobe. Nehmen wir weiter an, eine weibliche Person wäre auf diese Art positiv getestet worden. Wie wahrscheinlich ist es, daß die betreffende Person wirklich eine Hexe ist?

Antwort eines Verschwörungsirren:

Das muß ein Irrtum sein! Es gibt keine Hexen. Demzufolge ist es vollkommen ausgeschlossen, daß diese Person eine Hexe ist!

Daraufhin correctiv:

LÜGE! Wir haben mit Heinrich Cramer Kontakt aufgenommen. Er ist auf dem Gebiet der Detektion von Hexen und Zauberei eine ausgewiesene Kapazität. Heinrich Cramer ist dem Publikum durch ein herausragendes Werk (H. Cramer: “Malleus maleficarum”, Speyer 1486) bekannt geworden, das in der Wissenschaft als unumstrittener Standard zu diesem Thema angesehen wird. Er hat uns versichert, daß die Sensitivität seiner von ihm entwickelten Hexenprobe bei vollen 100% und die Spezifität bei 99.9999% liegen! Jawoll, dieser Probe entgeht keine Hexe!

Wer hat recht? Beide! Abgesehen vom Ausruf “LÜGE!”. Doch correctiv beantwortet nicht die Frage!


correctiv hat das natürlich nicht gesagt sondern zwei Faktenchecks veröffentlicht: #1 und #2, die einigen Medizinern Lügerei vorwerfen, weil letztere annehmen, daß ein positiver Test auf SARS-CoV2 mit 30%-iger, 50%-iger oder 80%-iger Wahrscheinlichkeit ein falsches Ergebnis bedeutet.

Besagte Faktenchecks von correctiv machen den Eindruck, als ob deren Autoren die Materie über die sie schreiben, selbst nicht verstehen. Er hinterläßt bei mir den Eindruck, diese Artikel seien mehrmals korrigiert worden, aber niemals so, daß das Ergebnis hinterher stimmt. Am Ende dieses Blogs sind einige Ungereimtheiten verzeichnet, die diese Eindrücke verstärken. Wirklich verständlich sind diese Faktenchecks uneingeweihten Lesern nicht. Und eingeweihte Lesern brauchen diese Faktenchecks nicht. Deshalb schreibe ich jetzt meinen Beitrag zu diesem Thema.

Eine herausragende Rolle spielt der *Bedingte-Relative-Häufigkeits-Verwechsel-Fehlschluß“, der in der Sammlung des Ratioblog fehlt. Deshalb brauchen wir unbedingt Aufklärung über diesen zwar häufigen aber kaum bekannten Fehlschluß. Eine Ausprägung dieses Fehlschlusses hatten wir hier schon behandelt. Nun behandeln wir Ergebnisse von Massentestungen in der Corona-Krise.

Doch zunächst üben wir uns im Zählen, damit wir auf diese Art wichtige Grundbegriffe einführen können, die Begriffe Spezifität, Sensitivität, Vorhersagewert, false negative und positive rate und Prevalenz.
Abgesehen von der Prevalenz handelt es sich bei all diesen Kenngrößen um bedingte relative Häufigkeiten, die man nicht verwechseln darf, weil man ansonsten den Bedingte-Relative-Häufigkeits-Verwechsel-Fehlschluß begeht.

Die nun folgende närrische Eierzählerei veranstalten wir, um diese Kennwerte verständlich zu machen, denn Gerd Gigerenzer hat angemerkt:

Begrifflichkeiten sind selbst medizinischem Personal oft nicht klar.

Zwölf Eier

Zwölf Eier:

3(+)  |(-)  3(-)  3(+)
|(+)  |(-)  3(+)  3(-)
|(-)  3(+)  3(-)  3(-)

Sie gleichen sich jedoch nicht wie ein Ei einem anderen. Es gibt acht Eier mit einem 3:

3(+)  3(-)  3(+)  3(+)
3(-)  3(+)  3(-)  3(-)

Und es gibt vier Eier mit einem |:

|(-)  |(+)  |(-)  |(-)

Die relative Häufigkeit der Eier mit einer 3 beträgt:

p(3) =  8 / 12 =  2 / 3

denn 8 von 12 Eiern haben eine 3. Unter relativer Häufigkeit versteht man den Anteil an einer Grundgesamtheit, also im vorliegenden Falle der zwölf Eier, mit einer gegebenen Merkmalsausprägung. Dementsprechend beträgt die relative Häufigkeit der Eier mit einem |:

p(|) =  4 / 12 =  1 / 3

denn 4 von 12 Eiern haben ein |.

Es gilt hier, wie man leicht nachrechnet:

p(3) + p(|) =  1               (1)

Diese zwölf Eier unterscheiden sich aber nicht nur darin, ob sie ein 3 oder ein | haben. Es gibt fünf Eier mit einem +:

3(+)  3(+)  |(+)  3(+)  3(+)

und sieben Eier mit einem -:

|(-)  3(-)  |(-)  3(-)  |(-)  3(-)  3(-)

Die entsprechenden relativen Häufigkeiten betragen:

p(+) =  5 / 12
p(-) =  7 / 12

und auch für das zweite Merkmal gilt, wie man leicht nachrechnet:

p(+) + p(-) =  1               (2)

Eierzählen im Quadrat

Nachdem wir zwei mal die zwölf Eier in jeweils zwei Gruppen geteilt haben, teilen wir jetzt die zwölf Eier in vier Gruppen:

  • in die Eier mit einer 3 und einem +:

      3(+)  3(+)  3(+)  3(+)
    

    die relative Häufigkeit hier beträgt:

      p(3, +) =  4 / 12 =  1 / 3
    

    denn vier Eier von zwölf haben eine 3 und ein +.

  • in die Eier mit einer 3 und einem -:

      3(-)  3(-)  3(-)  3(-)
    

    die relative Häufigkeit beträgt:

      p(3, -) =  4 / 12 =  1 / 3
    
  • in die Eier mit einem | und einem +:

      |(+)
    

    die relative Häufigkeit lautet:

      p(|, +) =  1 / 12
    
  • in die Eier mit einem | und einem -:

      |(-)  |(-)  |(-)
    

    die relative Häufigkeit beträgt:

      p(|, -) =  3 / 12 =  1 / 4
    

All diese relativen Häufigkeiten tragen wir in eine Tabelle ein und zwar so, daß die Zusammenhänge zwischen den relativen Häufigkeiten deutlich werden:

          ||  +        -        |  Summe
    ======++====================+=======
       3  ||  p(3, +)  p(3, -)  |  p(3)
       |  ||  p(|, +)  p(|, -)  |  p(|)
    ------++--------------------+-------
    Summe ||  p(+)     p(-)     |  1


          ||  +        -        |  Summe
    ======++====================+=======
       3  ||  1 / 3    1 / 3    |  2 / 3
       |  ||  1 / 12   1 / 4    |  1 / 3
    ------++--------------------+-------
    Summe ||  5 / 12   7 / 12   |  1

Bedingte relative Häufigkeiten

Relative Häufigkeiten sind Brüche und die haben jeweils einen Zähler und einen Nenner. Und bei allen bisher betrachteten relativen Häufigkeiten betrug der Nenner 12, denn wir hatten 12 Eier. Bei bedingten relativen Häufigkeiten bezieht man sich nicht auf die ganze Grundgesamtheit sondern auf einen Teil davon, die aus Individuen mit einer bestimmten Merkmalsausprägung besteht, z.B. den fünf Eiern mit einem +:

3(+)  3(+)  |(+)  3(+)  3(+)

Unter diesen fünf Eiern haben 4 eine 3 und eines ein |. Die bedingten relativen Häufigkeiten lauten:

p(3 / +) =  4 / 5
p(| / +) =  1 / 5

Ebenso, wie man sich auf die fünf Eier mit einem + beziehen kann, kann man sich auch auf die acht Eier mit einer 3 beziehen

3(+)  3(-)  3(+)  3(+)
3(-)  3(+)  3(-)  3(-)

Darunter gibt es 4 Eier mit einem + und 4 Eier mit einem -. Die bedingten relativen Häufigkeiten lauten:

p(+ / 3) =  4 / 8 =  1 / 2
p(- / 3) =  4 / 8 =  1 / 2

p(3 / +) und p(+ / 3) unterscheiden sich, denn 4/5 ist etwas anderes als ½. Diese bedingten relativen Häufigkeiten nicht voneinander zu unterscheiden, heißt Bedingte-Relative-Häufigkeits-Verwechsel-Fehlschluß

Bayessches Theorem

Zwischen diesen bedingten relativen Häufigkeiten gibt es jedoch einen Zusammenhang. Es gilt nämlich

p(X, Y) = p(Y, X)              (3)
p(X, Y) = p(X / Y) * p(Y)      (4)

und somit

p(X / Y) * p(Y) = p(Y / X) * p(X)

und umgestellt:

p(X / Y) = p(Y / X) * p(X) / p(Y)

Die letzte Gleichung heißt Bayessches Theorem.

Die Kunst des Eierzählens bei der Auswertung von Tests

David Hilbert wird das Zitat zugeschrieben:

Man muß jederzeit an Stelle von “Punkten, Geraden, Ebenen” “Tische, Stühle, Bierseidel” sagen können.

Entsprechend kann man in der Mathematik zu “Eiern” auch “Teste” sagen. Unter den Eiern mit dem + stellen wir uns jetzt auf SARS-CoV-2 positiv geteste Fälle vor. Entsprechend stellen wir uns unter den Eiern mit dem - auf SARS-CoV2 negativ getestete Fälle vor. 3 bedeutet “hat SARS-CoV2” und | bedeutet “hat SARS-CoV2 nicht”. Und schon sind wir in der Praxis der Testauswertung. In dieser Praxis heißen:

  • p(3) Prevalenz,
  • p(+ / 3) Sensitivität
  • p(- / |) Spezifität
  • p(3 / +) positivier Vorhersagewert (PPV)
  • p(| / -) negativer Vorhersagewert (NPV)
  • p(- / 3) false negative rate
  • p(+ / |) false positive rate

Der Bedingte-Relative-Häufigkeits-Verwechsel-Fehlschluß stellt sich nun so dar, daß diese Größen durcheinandergebracht werden. Stellen wir uns Dr. Köhnlein in seiner Praxis vor! Stellen wir uns weiter vor, bei ihm erscheint ein Patient, der von ihm positiv auf SARS-CoV2 getestet wird. Wie hoch ist die Wahrscheinlichkeit dafür, daß dieser Patient SARS-CoV2-infiziert ist? Welcher der vorgenannten Größen gibt diese Wahrscheinlichkeit an? Es ist der positive Vorhersagewert! Wir beziehen uns nämlich auf die Gesamtheit der positiven Tests! In dieser Teilgesamtheit der Eier mit dem + in der Gesamtgesamtheit aller Eier wollen wir den Anteil der Eier mit der 3 herausfinden, also die Größe p(3 / +). Wie hoch ist dieser Vorhersagewert?

correctiv behauptet eine Sensitivität von 99.7% und eine Spezifität von 98.6%. Können wir hieraus den positiven Vorhersagewert bestimmen? Nein! Aber wäre uns die Prevalenz bekannt, dann könnten wir das. Dr. Köhnlein behauptet, die Intensivstation wartet die ganze Zeit vergeblich auf akute COVID19-Fälle. Also setzen wir die Prevalenz niedrig an. Etwa bei 1%. Dann lautet der positive Vorhersagewert 41.84%. D.h. mit 58.16%-iger Wahrscheinlichkeit wäre das Testergebnis falsch! Und je weniger 3-Fälle es gibt, desto geringer wird der positive Vorhersagewert. Und wenn es überhaupt keine 3-Fälle gibt, dann beträgt er 0! Seht, was Wissenschaft anrichtet! Jahrhundertelang verreckten qualvoll Weiber auf Scheiterhaufen, weil es keine Hexen gibt, und Heinrich Cramer die Sensitivität seines von ihm entwickelten Tests mit 100% und die Spezifität mit 99.9999% angegeben hat! Wer mir das Ergebnis nicht glaubt: Oben genannte Zusammenhänge, das Bayessche Theorem und die Summen zu einem lua-Script verarbeiten und ausrechnen:

-- gegebene Groessen:
local p_infiziert                   -- Praevalenz
local p_positive_if_infiziert       -- Sensitivitaet
local p_negative_if_nichtinfiziert  -- Spezifitaet

p_infiziert                  =  0.01
p_positive_if_infiziert      =  0.997
p_negative_if_nichtinfiziert =  0.986


-- gesuchte Groessen:
local p_infiziert_if_positive       -- positiver Vorhersagewert
local p_nichtinfiziert_if_negative  -- negativer Vorhersagewert


-- Zwischengroessen:

local p_nichtinfiziert
   =  1 - p_infiziert

local p_negative_if_infiziert
   =  1 - p_positive_if_infiziert
   -- false negative rate

local p_positive_if_nichtinfiziert
   =  1 - p_negative_if_nichtinfiziert
   -- false positive rate

local p_positive_and_infiziert
   =  p_positive_if_infiziert * p_infiziert

local p_positive_and_nichtinfiziert
   =  p_positive_if_nichtinfiziert * p_nichtinfiziert

local p_negative_and_infiziert
   =  p_negative_if_infiziert * p_infiziert 

local p_negative_and_nichtinfiziert
   =  p_negative_if_nichtinfiziert * p_nichtinfiziert

local p_positive
   =  p_positive_and_infiziert + p_positive_and_nichtinfiziert

local p_negative
   =  p_negative_and_infiziert + p_negative_and_nichtinfiziert


-- Resultate:
p_infiziert_if_positive
   =  p_positive_and_infiziert / p_positive
   -- PPV

p_nichtinfiziert_if_negative
   =  p_negative_and_nichtinfiziert / p_negative
   -- NPV

-- Resultate ausgeben:
print("positiver Vorhersagewert", p_infiziert_if_positive)
print("negativer Vorhersagewert", p_nichtinfiziert_if_negative)

print()

print("positive", p_positive)
print("negative", p_negative)

print()

print("positive & infiziert", p_positive_and_infiziert)
print("positive & nicht infiziert", p_positive_and_nichtinfiziert)
print("negative & infiziert", p_negative_and_infiziert)
print("negative & nicht infiziert", p_negative_and_nichtinfiziert)

Wir haben nun gelernt, daß man die Größen Sensitivität und Spezifität auf der einen Seite und positiver Vorhersagewert auf der anderen Seite auseinanderhalten muß. Letzteren kann man errechnen, wenn neben den ersteren noch die Prevalenz bekannt ist. Wenn die Prevalenz gering ist, dann ist es auch der positive Vorhersagewert, selbst wenn Sensitivität und Spezifität gute Werte erreichen. Deswegen geht correctiv fehl, den Medizinern Lügerei nachgewiesen zu haben.


Aber correctiv treibt es noch doller. Irgendwie wissen die, daß die Prevalenz unter bestimmten Bedingungen eine wichtige Rolle spielt:

Update, 18. Juni 2020: Um Missverständnisse zu vermeiden, haben wir die Überschrift und den Text ergänzt. Dieser Text behandelt Fehlerquoten bezogen auf Spezifität und Sensitivität von PCR-Tests auf SARS-CoV2. Die Vortestwahrscheinlichkeit, die in bestimmten Fällen zu unterschiedlich hohen Fehlerquoten führen kann, erklären wir in einem anderen Text ausführlich.

, jedoch nicht welche:

Gesundheitsminister Spahn warnt vor millionenfachen Reihentestungen Besonders kritisch wird das Problem der Vortestwahrscheinlichkeit, wenn massenhaft Gruppen mit geringer Prävalenz getestet werden. Wenn es also nicht mehr nur um 100, sondern um Millionen Menschen geht. Davor warnte auch Gesundheitsminister Jens Spahn am 14. Juni in der ARD im Nachbericht aus Berlin. Auf mögliche Reihentestungen angesprochen, sagte er: „Ich finde nur eins immer wichtig, wenn ich lese, wir müssten drei, vier oder fünf Millionen jetzt flächendeckend jeden Tag testen: […] Dadurch, dass wir […] die Zahlen so runtergebracht haben, haben wir im Moment eine Positiv-Testung von unter einem Prozent bei gleichbleibend konstanter Testzahl in den letzten Wochen. Und wir müssen jetzt aufpassen, dass wir nicht nachher durch zu umfangreiches Testen […] zu viel falsch Positive haben. Weil die Tests ja nicht 100 Prozent genau sind, sondern auch eine kleine, aber eben auch eine Fehlerquote haben.“

Das Problem mit geringer Prevalenz ist hier ein anderes: Das Signal verschwindet im Rauschen. Das Testergebnis verliert hierdurch seine Aussagefähigkeit. Hierbei ist es unerheblich, ob 100 oder 1000000 Personen getestet werden.

Im Gegenteil: Derartige Massentests wären hilfreich, um die Prevalenz überhaupt erst einmal zu ermitteln und Ausbrüche zu erkennen, also einen rasanten Anstieg der Prävalenz. Abgesehen davon sind Statistiken desto verläßlicher, je umfangreicher die verwendete Stichprobe ist.

Sinnvoller als die Ausführungen Jens Spahns wären Ausführungen wie diese hier:

„Du kannst kein Feuer löschen, wenn du nicht weißt, wo es brennt“, warnte kürzlich WHO-Generalsekretär Tedros Adhanom Ghebreyesus. „Testen, testen, testen!“, laute das Motto im Kampf gegen die Pandemie. Das ist jedoch schwierig. Denn mindestens zwei von drei Infizierten stecken sich bei jemandem an, der keine oder nur sehr milde Symptome hat. Verhindern lasse sich das nur mit einem Kraftakt wie in Südkorea, sagt die Epidemiologin Emma Hodcroft vom Biozentrum der Universität Basel. Mit 5744 Tests pro Million Einwohner liegt das Land weltweit an der Spitze.

und

Symptomlose Überträger lassen sich nur dann herausfiltern, erklärt Hodcroft, wenn jeder die Chance auf einen Test bekommt, egal ob mit oder ohne Krankheitsanzeichen. Wer von seiner Infektion nichts weiß, wird das Virus ahnungslos in der Welt verbreiten. Sie plädiert noch aus einem zweiten Grund für eine Großfahndung: Ob Schulschließungen und soziale Distanzierung ihren Zweck erfüllen oder die Gegenmaßnahmen gar verschärft werden müssen, lasse sich nicht beurteilen, wenn der Erreger untertaucht. Dafür müssen die Ausbreitungswege des Virus nachvollziehbar bleiben.

Kuddelmuddel

Drunter und drüber geht es bei der Argumentation bei correctiv. Hier einige Beispiele:

Zunächst dieses Zitat aus einem dieser correctiv-Artikel. Es steht in keinem Zusammenhang mit dem umgebenden Text. Was will es sagen, beweisen, widerlegen, zeigen?

Angenommen ein Test hat eine sehr hohe Sensitivität und Spezifität von 99 Prozent. Testet man nun 100 Gesunde, werden 99 Personen korrekt negativ getestet und eine Person falsch positiv. Testet man jedoch 100 Infizierte, wird der Test 99 Personen korrektiv positiv erkennen und eine Person falsch negativ. Die Anzahl und die Art falscher Testergebnisse hängt demnach auch davon ab, wie viele von den getesteten Personen gesund und wie viele infiziert sind.

Hier weiß man nicht, um welches Beispiel es geht. Darüber hinaus taucht hier der Terminus “positiver” und “negativer Vorhersagewert” auf. Bei correctiv wird der arme Leser darüber im unklaren gelassen. Wird der Leser imstande sein, dem correctiv-Artikel inhaltlich zu folgen? Weiter oben haben wir diese Begriffe eingeführt. Aber correctiv hat das nicht. Und daß eben diese Vorhersagewerte genau die sind, die, wie wir ausführten, von der Prevalenz abhängen, ahnt er erst recht nicht:

Alexander Dalpke, Direktor des Instituts für Medizinische Mikrobiologie und Hygiene der Technischen Universität Dresden führte in unserem Faktencheck dieses Beispiel an, um zu verdeutlichen, dass der Test derselbe bleibt, die Wahrscheinlichkeiten sich jedoch je nach Basisrate ändern:
„Der Test wird im positiven und negativen Vorhersagewert besser, wenn gezielt Populationen mit einer höheren Vortestwahrscheinlichkeit untersucht werden.“

... comment