De actuariële kijk op ontwikkelingen COVID-19
Verklaren en voorspellen van ziekenhuisopnamen en overlijden
Melchior Mattens MSc AAG
melchior.mattens@arcturus.nl
Kan de actuariële praktijk relevant zijn voor de epidemiologie? Er blijken verassend veel onderwerpen binnen de epidemiologische situatie die deze praktijk raken. De dagelijkse RIVM-cijfers over Covid-19 raken actuariële onderwerpen als IBNR, GLM-pricingmodellen, seizoenspatronen (tijdreeksen) en forecasting. Door actuariële modellen toe te passen op deze data kan inzicht worden gegeven in ontwikkelingen in ziekenhuisopnamen en sterfte. Tevens kunnen deze modellen worden gebruikt om toekomstige ontwikkelingen te voorspellen en hierbij de onzekerheid te kwantificeren. Elke dag kan de voorspelkracht van de (gecombineerde) modellen worden getoetst. In het artikel De actuariële kijk op ontwikkelingen COVID-19 laten wij zien hoe deze modellen gecombineerd kunnen worden tot robuuste voorspelmodellen.
Melchior Mattens MSc AAG
melchior.mattens@arcturus.nl
SARS-CoV-2, ook wel Covid-19 en Coronavirus genoemd, beheerst al geruime tijd het dagelijks leven in Nederland en ver daarbuiten. Het kabinet wordt bijgestaan in beleidskeuzes door het RIVM. Om deze rol zo goed mogelijk in te vullen verzamelt het RIVM grote hoeveelheden data van ziekenhuizen en de GGD om zo inzicht te krijgen in de verspreidingssnelheid van het coronavirus, maar ook in de ontwikkeling in ziekenhuisopnamen en sterfte. Relevante doorsneden van deze data worden op dagelijkse basis door het RIVM data beschikbaar gesteld aan het publiek. Hierin worden onder andere het aantal ziekenhuisopnamen en sterfgevallen naar gebeurtenisdag, maar ook doorsneden van patiëntkenmerken vermeld.
In dit artikel gaan we in op het soort data dat het RIVM publiceert over Nederland en hoe het geïnterpreteerd moet worden. Kan de actuariële praktijk relevant zijn voor de epidemiologie? Er blijken verassend veel onderwerpen binnen de epidemiologische situatie die deze praktijk raken: IBNR, tijdreeksen en voorspelmodellen zijn slechts enkele voorbeelden. In dit artikel bekijken we de best beschikbare actuariële en econometrische modellen om tot een sterfteprognose te komen.
Incurred But Not Reported (IBNR)
Zoals gezegd publiceert het RIVM dagelijks het aantal opnames en sterfgevallen naar gebeurtenisdag en vindt er bijstelling plaats op het aantal meldingen van eerdere gebeurtenisdagen. Zorginstellingen melden veelal pas later dat iemand met een positieve Covid-19 test is opgenomen, dan wel is overleden. Hierdoor ontstaat er een nameldpatroon in het aantal opnames en sterfgevallen: pas na circa zeven dagen weten we ongeveer hoeveel mensen er werkelijk zijn opgenomen en overleden op een dag. Het aantal overlijdensgevallen dat elke dag in de media wordt gerapporteerd is de sommering van alle nieuw gemelde overlijdensgevallen sinds de uitbraak in Nederland en níet alleen van de afgelopen dag.
Binnen het actuariaat is men zeer bekend met het probleem dat momenteel nog niet duidelijk is hoeveel mensen er precies zijn opgenomen of overleden. Idealiter heeft men inzicht in het werkelijk aantal patiënten dat vandaag wordt opgenomen en overlijdt: dan worden trends sneller en duidelijker zichtbaar.
Doordat we de ontwikkeling kunnen volgen voor elke gebeurtenisdatum door de tijd ontstaan er zogenaamde driehoeksoverzichten van het aantal patiëntopnames en overlijdens naar gebeurtenisdag en melddag. Deze staan in onderstaande figuren weergegeven. Het probleem is dat voor de meest recente dagen er nog veel ontwikkeling van nameldingen kan zijn op het aantal opnamen en overlijdensgevallen. Echter, met dergelijke overzichten weet men in het actuariaat wel raad. Om tot een uitschatting te komen voor het totaal aan opnames en overlijdensgevallen per dag kan een Chain Ladder model worden gebruikt. Hiermee wordt het gemiddelde uitlooppatroon van eerdere dagen toegepast op de reeds gemelde aantallen op dit moment.
Figuur 1 en 2: driehoeksoverzichten opnamen en overlijdensgevallen Nederland. Met de rode pijlen is de volschatting naar het uiteindelijk aantal weergegeven.
Opvallend aan bovenstaande tabellen is dat voor de twee laatste dagen er enorme onzekerheid is over het werkelijke opnames en overlijdensgevallen. Hiervoor is net als voor veel (schade)verzekeringen een alternatieve schattingsmethodiek nodig. Bijvoorbeeld door te kijken naar de ontwikkeling in het totaal aantal opnames/overlijdensgevallen (ultimate). Met behulp van statistische software kan onderstaand tijdreeksmodel (ARIMA) worden gefit dat een projectie geeft voor het aantal ziekenhuisopnamen en de 95% voorspelinterval dat daaromheen ligt.
Figuur 3: ARIMA-model voor dagelijks aantal ziekenhuisopnamen in Nederland. Voorspelling tot 75 dagen vooruit. Voorspelinterval: 75% en 90% kans.
In figuur 3 is te zien dat tot rond 1 april er een exponentieel verband waarneembaar was in het aantal dagelijkse ziekenhuisopnamen inclusief IBNR. In figuur 4 is ingezoomd op de periode tot en met 13-4-2020. Hierin geven de punten het aantal opnames inclusief IBNR aan en tevens zijn twee curves toegevoegd die een mogelijk tijdsverband in de data proberen te fitten. De rode curve is de op de data best passende exponentiële curve en de groene curve is de dichtheidsfunctie van een normale verdeling. Te zien is dat de groene curve veel beter past en de daling in het aantal opnamen duidelijk is ingezet.
Het voorspellen van het aantal overlijdensgevallen met deze methodiek is echter te simplistisch. Hier liggen immers allerlei risicofactoren aan ten grondslag, zoals de leeftijd en eventuele comorbiditeiten.
Sterfteontwikkeling en -modellering
Aanvullend op de aantallen ziekenhuisopnames en sterfgevallen, publiceert het RIVM elke dag overzichten van de geregistreerde patiëntengroep naar leeftijd, geslacht en onderliggend lijden (comorbiditeiten). In onderstaande plots staat voor een aantal belangrijke leeftijdsgroepen en het geslacht de ontwikkeling van het aandeel in de (ziekenhuis)patiëntenpopulatie en de stand van de waargenomen sterftefrequentie.
Figuur 5
Figuur 5 en 6: ontwikkeling in aandeel ziekenhuisopnamen per groep (balken) en ontwikkeling totale sterftekans (labels en lijn).
Deze plots geven inzicht (in schommelingen) in de sterftekans binnen een risicogroep. Om een voorspelling te kunnen doen over toekomstige sterfte dient deze data op incrementele basis te worden bekeken: kan de dagelijkse sterfte worden verklaard uit het aantal ziekenhuisopnamen van een X-aantal dagen eerder?
Om een optimaal voorspelmodel te kunnen maken voor toekomstige sterfte zouden we van de opgenomen patiënten informatie over belangrijke risicofactoren willen kunnen combineren: maakt het bijvoorbeeld een verschil of iemand onderliggend lijden heeft op jongere leeftijd en hebben oudere mannen een lagere overlevingskans dan oudere vrouwen? Om hierin inzicht te kunnen verschaffen moet er per patiënt beschikbaar zijn in welke van deze risicocategorieën hij viel. Helaas publiceert het RIVM uitsluitend tabellen waarin er geen relatie is vastgelegd tussen geslacht, leeftijd en comorbiditeiten: het alleen mogelijk om modellen te maken op de drie aparte reeksen.
Omdat we uitsluitend de sterfte kunnen voorspellen met deze drie risicofactoren als aparte verklarende variabelen is het de vraag wat de impact kan zijn van een splitsing. In Statline van het CBS vindt men informatie over de Nederlandse bevolking als geheel. Hier vindt men data met betrekking tot leeftijd, geslacht en ziektebeelden. Enerzijds zijn er meer vrouwen in de oudere leeftijdscategorieën te vinden (risicofactor) maar anderzijds is bekend dat cardiovasculaire ziekten, hypertensie, diabetes1 en longaandoeningen vaker bij mannen voorkomen dan vrouwen. Omdat deze selectie van comorbiditeiten zeer relevant zijn in de sterfte zien we dat de verhouding in geslacht sterk correleert met comorbiditeiten. Eveneens merken we op dat het voorkomen van comorbiditeiten sterk correleert met leeftijd. Indien we data voor de drie risicofactoren gecombineerd beschikbaar zou zijn, was er een grote waarschijnlijkheid van autocorrelatie. Het fitten van drie aparte modellen voorkomt autocorrelatie en schattingsverschillen kunnen aangeven dat bepaalde trends net wel of niet beter worden gevat door een of meerdere modellen.
Om tot een sterfteprognose te komen voor de twee meest recente dagen en een dag vooruit optimaliseren we GLM-modellen uit de quasipoisson-familie. Generalized Linear Models (GLM) worden in het actuariaat veelvuldig gebruikt om risicofactoren mee te kunnen kwantificeren. De verklarende variabelen in het model vatten het effect van de gemiddelde opnameduur van een patiënt in een bepaalde risicoklasse op de kans om te overlijden X-dagen later. Met deze modellen kunnen we een vrij accurate voorspelling doen voor de sterfte van enkele dagen vooruit. Omdat we van de historisch twee meest recente dagen die we niet op basis van Chain Ladder kunnen uitontwikkelen ook een prognose moeten maken projecteren we de sterfte initieel voor drie dagen vooruit. Door de toevoeging van de extra dag (de derde dag vooruit) kan een gehele diagonaal in het Chain Ladder-model met de stand van de volgende dag worden opgebouwd. De inschattingen voor de sterfte per 13-4-2020 staan in onderstaande tabel en grafiek weergegeven.
Datum | Sterfte leeftijdsmodel |
Sterfte Comorb. Model |
Sterfte geslachtsmodel |
Gemiddelse sterfte 3 modellen |
12/04/2020 | 73 | 84 | 87 | 81 |
13/04/2020 | 49 | 142 | 77 | 89 |
14/04/2020 | 91 | 80 | 55 | 75 |
Figuur 7 en 8: sterftevoorspelling per model, inclusief geschatte bandbreedte.
Door een gemiddelde te nemen van de modeluitkomsten ontstaat er een gewogen beeld van het totale aantal sterfgevallen in de afgelopen dagen. Met deze volschatting voor de twee meest recente dagen op basis van de gemiddelde modeluitkomsten wordt het patroon van het Chain Ladder-model voor de twee meest recente dagen opgeschaald. Vervolgens kan ook de ontwikkeling in de dagelijkse sterfte (ultimates) worden weergegeven. Hierbij is met verschillende “best fitting” functies geprobeerd om de trend in de data te vatten.
Figuur 9: ontwikkeling sterfte naar gebeurtenisdag. Rode lijn: exponentieel verband, blauwe lijn: sigmoïde functie, groene lijn: Gaussische kromme (normale verdeling).
Uit bovenstaande figuur blijkt voor de recente week een duidelijke neerwaartse trend ingezet voor het aantal overlijdensgevallen. Dit is een licht vertraagd beeld dat ook zichtbaar is in figuren 3 en 4 voor het aantal ziekenhuisopnamen. De groene lijn (de Gaussische kromme) lijkt daarbij het beste de trend in de sterfte te vatten. Geheel bouwen op een extrapolatie van deze curve kunnen we ook voor een sterfteprognose niet. De modellen onderkennen immers dat het zeer relevant is of er instroom van nieuwe ziekenhuispatiënten is en in welke risicogroepen deze (gemiddeld) vallen.
Voorspelling sterfterapportage RIVM
Het RIVM rapporteert dagelijks de sterfte op melddag (alle sterfgevallen gemeld tussen 10:01 de voorgaande dag en 10:00 op de huidige dag). Dit komt overeen met de incrementele ontwikkeling op de eerste toekomstige diagonaal die door het Chain Ladder-model voorspeld wordt. Dit betreft de voorspelling van de diagonaal zoals deze in onderstaand figuur staat weergegeven.
Door de incrementele ontwikkeling te bepalen tussen de laatste stand en de voorspelde stand voor de eerst volgende dag (grijze diagonaal) kan een voorspelling voor de te rapporteren sterfte door het RIVM worden afgeleid. Voor 14-4-2020 komt deze voorspelling uit op 89 sterfgevallen.
Figuur 10: driehoek aantal overlijdensgevallen naar gebeurtenis- en ontwikkeldatum.
Prognose
De prognose van verdere sterfteontwikkeling is sterk afhankelijk van het uiteindelijke aantal nieuwe ziekenhuisopnamen en de verhoudingen van het aantal patiënten met bepaalde leeftijden en comorbiditeiten. Ook blijft er aan de sterfte zelf een stochastische component. De sterftemodellen veronderstellen daarin een (quasi)poissonverdeling. Voor de ontwikkeling in de relatieve verhoudingen van patiënten per leeftijdsgroep en het totaal aantal patiënten (figuur 3) worden ARIMA-modellen gebruikt en daaruit voorspelintervallen afgeleid. Op basis van de koppeling van de sterftemodellen voor leeftijdsgroepen aan de voorspelmodellen voor het totaal aantal dagelijkse ziekenhuisopnamen (inclusief IBNR) en de relatieve verhoudingen van de instroom naar leeftijdsgroepen is de sterfte in figuur 11 75 dagen vooruit geprojecteerd. Deze projectie staat hieronder weergegeven op cumulatieve basis.
De weergegeven prognose in figuur 11 heeft een breed voorspelinterval. Het ARIMA-model voor de instroom van nieuwe patiënten verwacht een stabiliserende lage instroom in de nabije toekomst. Echter is er een aanzienlijke kans dat de instroom (nagenoeg) naar nul gaat, waardoor na enkele weken ook de sterfte naar (nagenoeg) nul zal zakken. Dit geeft een indicatie voor de ondergrens voor toekomstige sterfte aan Covid-19.
Figuur 11: cumulatieve sterfte en sterfteprognose 75 dagen vooruit. Model op basis van verwachte instroom nieuwe patiënten in leeftijdscategorieën. Turquoise: historische cumulatieve ontwikkeling. Rood: voorspelde toekomstige ontwikkeling.
Een beperking bij deze voorspellingen is dat ze uitgaan van ongewijzigde omstandigheden. Bij beleidswijzigingen, zoals méér testen of opheffen van beperkingen in het sociaal verkeer, zullen deze uitkomsten moeten worden bijgesteld. 9
Tegelijkertijd blijkt uit waarnemingen van het CBS dat de RIVM-data de landelijke oversterfte als gevolg van Covid-19 waarschijnlijk onderschat. Het in dit artikel getoonde prognosemodel omvat deze missende sterfte ook niet. De in de RIVM-data ontbrekende sterftegevallen betreffen voornamelijk sterfgevallen thuis of in zorginstellingen waarbij mensen niet op Covid-19 getest konden worden. Daarom moeten de uitkomsten van dit model uitsluitend worden gezien als indicatief: het aantal ziekenhuisopnamen is waarschijnlijk (sterk) gecorreleerd aan het aantal buiten beeld blijvende sterfgevallen. Dit is waar indien de aanname opgaat dat binnen een leeftijdsgroep en/of comorbiditeitsgroep het voor mensen even waarschijnlijk is om snel te herstellen of te sterven, dan wel lang genoeg ziek te zijn om in het ziekenhuis opgenomen te moeten worden. Op dit moment is er in ieder geval geen wetenschappelijke literatuur die deze aanname verwerpt.
Actuariële modellen
Alle in dit artikel benoemde modellen zijn veel gebruikte modellen om voorspellingen mee te doen binnen het actuariaat. De RIVM-cijfers over Covid-19 raken actuariële onderwerpen als IBNR, GLM-pricingmodellen, seizoenspatronen (tijdreeksen) en forecasting. Elke dag kan de voorspelkracht van de (gecombineerde) modellen worden getoetst. Backtesting en gevoeligheidsanalyses zijn belangrijk om een robuuste schatting te geven voor de toekomstige impact van Covid-19 op de Nederlandse samenleving. Omdat er nog vele ontwikkelingen op stapel staan (bijvoorbeeld het terugdraaien van een aantal quarantainemaatregelen) die invloed kunnen hebben op de verspreiding van Covid-19, zal men moeten blijven monitoren hoe het aantal ziekenhuisopnamen en de sterfte zich ontwikkelen. Wij pakken die handschoen graag op om de actuariële modellen door te ontwikkelen en u te voorzien van de inzichten die deze modellen opleveren.