Covid-19 Reproduktionszahl: Schätzungen waren 3x so präzise wie RKI

Last updated on 14. Mai 2020

Backtesting für RKI-, TU-Ilmenau und eigene Reproduktionszahlen

Für die vom Robert Koch-Institut (RKI) und der TU Ilmenau als auch die eigenen im Monat April vorgenommenen Schätzungen zur Reproduktionszahl (Covid-19) wurde ein vereinfachtes Backtesting durchgeführt. Das Backtesting soll hierbei aufzeigen, in welchem Umfang sich vorgenommene Schätzungen mit späteren, konkretisierten Schätzergebnissen (Referenzwerte) decken.

Das Backtesting ist daher Indikator für die Güte eingesetzter Modelle zum jeweiligen Zeitpunkt.

Ziel dieses Backtestings ist es jedoch vielmehr, die Frage zu beantworten wie richtig wir mit getätigten Einschätzungen zum jeweiligen Zeitpunkt gelegen haben.

Aus diesem Grund werden mögliche Methodenbrüche oder Veränderungen der Modelle und verwendeter Modellannahmen in Kauf genommen. Die zu den Berichtsstichtagen ausgewiesenen Ergebnisse mit heutigen Einschätzungen verglichen. Auf Details zu einzelnen Modellen wird hierbei punktuell eingegangen, soweit dies relevant erscheint.

Übersicht der Schätzungen

Covid-19 R-Schätzungen im Vergleich
Reproduktionszahl-Schätzungen RKI, TU Ilmenau und eigene Schätzungen im Vergleich mit Ex-Post-Werten

Ergebnisse

Für das Backtesting der Covid-19-Reproduktionszahl für die Berichtsstichtage vom 1. April bis einschließlich 30. April zeigen sich folgende indikativen Ergebnisse:

 Robert Koch-InstitutTU IlmenauAndreas Wenzel
abgegebene Schätzungen253030
Mittelwert R-Schätzungen0,970,810,85
Mittelwert R-Referenz (ex post)0,830,830,83
mittlerer Schätzfehler+0,14-0,02+0,02
5%-Konfidenzintervall Abweichungen (empirisch)+0,48+0,40+0,23
95%-Konfidenzintervall aus Abweichungen (empirisch)-0,08-0,43-0,07
Standardabweichung aus Schätzfehlern0,250,390,09
mittlerer absoluter Schätzfehler0,160,180,05
Schätzfehler in %19,3%21,7%6,0%

Schätzungen des RKI

Das Robert Koch-Institut hatte insbesondere in der ersten Monatshälfte noch mit Instabilitäten im Modell zu kämpfen. Dies hat sich dann in der zweiten Monatshälfte verbessert (Abbildung oben).

Abweichungen der einzelnen R-Schätzungen des RKI vom jeweiligen Referenzwert zum Berichtsstichtag.

Die Schätzfehler (nach Größe absteigend sortiert) bewegen sich in einer Spannbreite von +0,48 bis -0,08. Damit wird für die betrachteten Stichtage von einer mehrheitlichen und teilweise auch deutlichen Überschätzung der Reproduktionszahl ausgegangen.

Durch zunehmend zügigere Testings und Meldungen kam es offenbar aber auch in der zweiten Monatshälfte noch zu Überschneidungen zwischen eingegangenen Meldungen und Hochrechnungen aus dem Nowcast. Dies dürfte ebenfalls zur Überzeichnung der Reproduktionszahl geführt haben.

Darüber hinaus zeigten sich noch Wochenend-Effekte gezeigt, welche zu einzelnen Ausreißern in der Schätzung mittels Nowcast beigetragen haben.

Das RKI-Modell und auch die Reproduktionszahl selbst haben dadurch leider einen erheblichen Vertrauensverlust erlitten. Das Ableiten von schlüssigen und plausiblen Entscheidungen war nur schwerlich möglich, was auch dazu geführt haben dürfte, dass die Politik von einer engeren Orientierung an der Reproduktionszahl wieder abgerückt ist.

Das RKI hat daraufhin Anfang Mai 2020 mit einer stärkeren Glättung des Nowcast über vier statt bisher drei Tage reagiert. Seither zeigen sich bis zum aktuellen Tag deutlich stabilere und auch glaubwürdigere Schätzungen als zuvor.

Persönlich gehe ich davon aus, dass anfängliche Instabilitäten sowohl durch die vorgenommenen Modellanpassungen als auch durch das sich stabilisierende Nachverfolgungs-, Test- und Meldeverhalten zwischenzeitlich ausgeräumt werden konnten. Nach aktuellen Vorzeichen sollte es im Mai gelingen, eine erheblich höhere Prognosegüte zu erlangen. Fraglich bleibt, ob auch der Vertrauensverlust in die Kennzahl selbst wieder ausgeglichen werden kann.

Schätzungen der TU Ilmenau

Die TU Ilmenau verwendet hingegen ein vergleichsweise einfaches Modell auf Basis der täglichen Neumeldungen des RKI unter Berücksichtigung einer Inkubationszeit und laufender Ergänzung möglicher Nachmeldungen für die jüngsten Stichtage. Neben Schätzungen für Deutschland werden auch für andere Länder als auch für einzelne Bundesländer Reproduktionszahlen ermittelt, worauf ich hier nicht eingehe.

Abweichungen der einzelnen R-Schätzungen der TU-Ilmenau vom jeweiligen Referenzwert zum Berichtsstichtag.

Die mittlere Abweichung von gerade -0,02 zeigt, dass das Modell im Mittel sehr präzise und ausgewogene Einschätzungen liefert. Auf Tagesbasis schwanken diese jedoch erheblich und zyklisch mit dem Meldeverhalten.

Insofern liefert der Tageswert isoliert keine steuerungstaugliche Information, Eine Trend-Betrachtung über wöchentliche Zeiträume ermöglicht dennoch recht gute Indikationen.

Die hier eingesetzte Backtesting-Methode wird dem Modellansatz der TU, welcher diese Schwankungen offenbar bewusst zulässt, nicht ganz gerecht. Ein sachkundiger Leser kann die gelieferten Ergebnisse sehr gut einordnen, da die getroffenen Annahmen und deren Auswirkungen durchaus zu überblicken und auch sich ergebende Folgen im Chart-Verlauf ersichtlich sind. Insofern ist das Modell zwar volatil, aber auch transparent, weil auf komplexere Annahmen verzichtet wird.

Da die Volatilität in beide Richtungen gleichermaßen zu Ausschlägen führt, welche sich im Trend offenbar sehr gut ausgleichen, hat das Modell unter Berücksichtigung dieses Aspekts zumindest für den April deutlich verlässlichere Ergebnisse geliefert als der komplexe Ansatz des RKI.

Für die Bereitstellung steuerungstauglicher Informationen für weniger versierte Leser wäre es dennoch wünschenswert, den Charts zusätzlich einige  geglättete Werte zu spendieren, beispielsweise auf rollierender 7- oder 14-Tage-Basis. So könnte auch der größere Trend und das Ablesen eines etwaigen mittleren Lagebildes erleichtert werden.

Schätzungen meinerseits

Das eigene Modell war bis 26. April noch recht ähnlich ausgestaltet wie das der TU Ilmenau, jedoch mit dem Unterschied, dass Falldaten von Beginn an immer über ein 7-Tage-Zeitfenster zusammengefasst wurden und dann mit dem um eine Generationsdauer zurückversetzten Zeitfenster verglichen wurden. Abweichend vom Ansatz der TU wurden hierbei die Falldaten der Johns-Hopkins-University (JHU) / Funke Mediengruppe verwendet. Bis dahin wurden Schätzungen auch auf 0,05 gerundet.

Erst ab Ende April wurde auf ein Modell umgestellt, welches methodisch dem Ansatz des RKI nahekommt. Auch hierbei werden Zeifenster sowohl im Nowcasting als auch bei der Imputation des Erkrankungsbeginns von Falldaten auf wöchentlicher Basis eingesetzt.

Das ist ebenfalls der Modellansatz, aus welchem (auch in Ermangelung einer öffentlich verfügbaren Vergleichszeitreihe seitens des RKI als Rückbetrachtung) die Referenzzeitreihe Anfang Mai gewonnen wurde.

Da für einen weit überwiegenden Teil der Schätzungen noch ein anderer Ansatz zugrunde lag, ist das Risiko selbstreferentieller Effekte recht gering. Die Verwendung geglätteter Werte in beiden Ansätzen drückt sich natürlich dennoch deutlich begünstigend auf die Ergebnisse im Vergleich zu anderen Modellen aus. Das halte ich aber auch praktisch für sachgerechter und praxisnäher als den Versuch, das Infektionsgeschehen auf Tagesbasis beschreiben zu wollen.

Abweichungen der einzelnen R-Schätzungen meinerseits vom jeweiligen Referenzwert zum Berichtsstichtag.

In der Abweichungsanalyse zeigen sich anfangs recht deutliche Überschätzungen. Diese begründen sich damit, dass Anfang April ein teilweise großer Abstand zwischen Erkrankungsbeginn (im Referenzmodell als Grundlage verwendet) und Meldedatum vorlag. Somit haben zahlreiche "Nachmeldungen" infolge einer verzögerten Nachverfolgung und stattfindende Aufholeffekte auch das Datenbild der JHU geprägt.

Mitte April stabilisierte sich der Meldeverzug. Damit wurden auch die Schätzergebnisse stabiler und treffender.

Das Erkennen dieser verzerrenden Einflüsse Anfang April war für mich dennoch Grund, den Modellansatz gegen Ende April umzustellen. Schließlich ist es gerade dann, wenn Fallzahlen deutlich steigen (also eine neue Welle droht) und Meldedauern variiere,n umso wichtiger, möglichst verlässliche Kennzahlen zu ermitteln. Anderenfalls würden sie ihre Funktion als Frühwarnindikatior verfehlen.

Als "Zwischenstand" lässt sich dennoch festhalten, dass für den Zeitraum im April der recht pragmatische Ansatz "quick & dirty" letztlich die stabileren und Ergebnisse hervorgebracht hat. Im Umfeld sinkender Fallzahlen zeigten sich anfängliche Überschätzungen und dann recht treffende Ergebnisse. Für das Szenario steigender Fallzahlen und wachsendem Meldeverzug würde jedoch genau der umgekehrte Effekt eintreten, was ein recht hohes Gefahrenpotenzial im Sinne einer Risikounterschätzung hätte.

Um dies zu vermeiden bietet der methodische Ansatz des RKI, an welchem ich mich nun auch orientiere, bessere Möglichkeiten, dies über dynamisch ermittelte Parameter zum Meldeverhalten zukompensieren.

Für einen Rückschluss auf all diese Anpassungen ist es aber noch zu früh. Auch insgesamt sei darauf hingewiesen, dass das ausgewählte Zeitfenster noch zu kurz ist, hier eine abschließende Bewertung vorzunehmen. Das betrifft alle drei Modelle

Herausforderungen

Grundsätzlich stehen alle drei Modelle vor demselben Engpass: Zeitverzögerte Meldungen, Schwankungen im Zeitversatz und auch Schwankungen in der Dunkelziffer. Darin sehe ich auch das Risiko im Szenario wieder anwachsender Fallzahlen. Das kann aber am wirksamsten außerhalb der Modelle durch entsprechende Test- und vor allem Nachverfolgungskapazitäten gemindert werden.

Persönlich kann ich die eher akademisch getriebene Idee der zeitpunktbezogenen Schätzungen verstehen. Traumhaft wäre es natürlich, die Reproduktionszahl am besten quasi "live" mitverfolgen zu können. Dazu wären die Ansätze des RKI und der TU Ilmenau definitiv die geeigneteren. Vor dem Hintergrund der ganz praktischen Limitierungen aus Nachverfolgung, Testing und zyklischen Effekten, halte ich persönlich den geglätteten Ansatz jedoch für den in der Praxis als auch für die Kommunikation tauglicheren.

Verwendete Daten

Als Datenbasis werden die zum jeweiligen Stichtag veröffentlichten Kennzahlen herangezogen. Als Referenzwert gilt eine nachträglich für die jeweiligen Stichtage geschätzte Reproduktionszahl, welche spätere Erkenntnisse wie Nachmeldungen oder Nachtragungen zum Erkrankungsbeginn berücksichtigen.

Der Referenzwert wurde aus einem eigenen Modell gewonnen, welches zum Zeitpunkt der Ermittlung einen sehr hohen Gleichlauf mit dem RKI-Modell aufweist, die Reproduktionszahl aber durchgängig mit 7-Tages-Zeitfenstern ermittelt (RKI: 4 Tage). Als Gernerationsdauer sind einheitlich 4 Tage angenommen. Insofern ist der meinerseits verwendete Referenzwert etwas stärker geglättet als dies im RKI-Modell erfolgt.

Durch unterschiedliche Berechnungsmethoden kann es zu einem Zeitversatz zwischen den Datensätzen um bis zu 3 Tagen kommen. Dies wird vereinfachend in Kauf genommen, da die nachträglich ermittelten Referenzwerte nur geringen täglichen Schwankungen unterliegen.

StichtagReferenz vom 06.05.2020Schätzung RKISchätzung TU IlmenauSchätzung A. Wenzel
2020-04-010.92n/a0.711.20
2020-04-020.93n/a0.861.10
2020-04-030.921.001.221.10
2020-04-040.91n/a1.281.00
2020-04-050.91n/a1.340.95
2020-04-060.9n/a1.280.90
2020-04-070.891.300.840.80
2020-04-080.871.200.480.90
2020-04-090.861.100.680.90
2020-04-100.851.100.960.80
2020-04-110.831.301.030.80
2020-04-120.811.301.000.80
2020-04-130.791.200.700.80
2020-04-140.801.000.640.80
2020-04-150.780.900.410.80
2020-04-160.790.800.370.75
2020-04-170.800.700.60.75
2020-04-180.790.800.880.80
2020-04-190.820.801.030.80
2020-04-200.830.901.030.80
2020-04-210.830.900.740.90
2020-04-220.840.900.510.85
2020-04-230.830.900.640.90
2020-04-240.810.900.840.85
2020-04-250.800.900.980.80
2020-04-260.780.900.860.75
2020-04-270.781.000.830.75
2020-04-280.780.900.590.75
2020-04-290.770.750.320.75
2020-04-300.760.760.560.75

Es wird darauf hingewiesen, dass Berichtsstichtage immer eine nachträgliche Betrachtung für ein früher stattgefundenes Infektionsgeschehen darstellen.

Die Darstellung dient der Veranschaulichung und der Ableitung grober Indikationen. Ein Anspruch auf Vollständigkeit und Richtigkeit besteht nicht.

Alle Angaben sind ohne Gewähr.

Datenquellen:

Reproduktionszahlen RKI: Situationsberichte des RKI / Erstwert laut allgemeinen Pressemeldungen.
https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Situationsberichte/Archiv.html

Reproduktionszahlen TU Ilmenau:
https://stochastik-tu-ilmenau.github.io/COVID-19/germany

Eigene Reproduktionszahlen und Ermittlung von Referenzwerten:
Ermittlungen bis 25. April auf Basis von Neumeldungen der Johns Hopkins University / Funke Mediengruppe, ab 16. April auf Basis eines fortgeschrittenen Modell mittels der vom RKI bereitgestellten Falldaten mit eigenem Nowcast-Ansatz und Imputation von unbekannten Erkrankungsbeginn-Daten auf Wochenbasis sowie R-Schätzung mit umeine Generationsdauer von 4 Tagen versetzten wöchentlichen Zeitfenstern.
https://interaktiv.waz.de/corona-virus-karte-infektionen-deutschland-weltweit/
https://www.arcgis.com/home/item.html?id=f10774f1c63e40168479a1feb6c7ca74

Andreas Wenzel Verfasst von:

Entwickelt und prüft als Consultant seit mehr als 15 Jahren Risikoquantifizierungs- und -steuerungsmodelle im bankaufsichtlichen Kontext.

Ein Kommentar

Die Kommentare sind geschlossen


Coronavirus: Reproduktionszahlen Bundesländer

täglich um 10:00 Uhr aktualisiert mit PDF-Download - eigene Modellschätzungen