Uno de los indicadores que se publican cotidianamente para informar el avance de la epidemia de COVID-19 es el número acumulado de defunciones confirmadas. Este indicador tiene, sin embargo, dos problemas que nos impiden ver con claridad la velocidad con la que la pandemia se propaga en el país. El primero tiene que ver con el número limitado de pruebas que se realizan, y que en un momento dado será insuficiente para determinar la causa de muerte de todas aquellas personas que fallecen con síntomas parecidos a los del COVID-19. Es decir, llegando a cierto nivel de la pandemia, el número de defunciones que se contabilizan de un día a otro no es un indicador del avance de la pandemia, si no de la capacidad de hacer tests de un país. El segundo problema tiene que ver con el desfase temporal con que las defunciones se registran en la base de datos, consecuencia de que no todas las defunciones son registradas el mismo día en el que ocurren. En otras palabras, los nuevos registros entre dos fechas de corte no corresponden necesariamente a las muertes ocurridas entre esas dos fechas, sino también a las ocurridas en fechas anteriores y que aún no habían sido contabilizadas. Las causas de este desfase han sido explicadas por el Subsecretario de Salud, Hugo López-Gatell, como el tiempo que tarda un comité técnico en determinar si la defunción fue a causa o no del COVID-19.
El desfase temporal tiene como consecuencia que los datos disponibles más recientes subestiman el número de defunciones, lo que puede derivar en interpretaciones erróneas sobre el estado de la pandemia en nuestro país. Este artículo tiene como objetivo estimar el subregistro de fallecidos a causa del COVID-19, debido al desfase temporal en el registro en las bases de datos de la Dirección General de Epidemiología. Además, se muestra cómo el hecho de utilizar unos u otros datos puede cambiar considerablemente las proyecciones sobre el crecimiento de la pandemia.
Estimando cuántos fallecimientos hubo hasta el día de hoy
Para estimar el número de subregistros, se propone un modelo probabilístico Bayesiano. Este modelo hace inferencia sobre la tasa de arribo de los registros de defunciones faltantes, utilizando las bases de datos históricas. La idea central del modelo es que si se estima que el 25% de las observaciones faltantes son agregadas en tres días y el número observado de registros agregados durante los últimos tres días es de 100, entonces el número estimado de subregistros sería de 300. Siendo más específico, $100 = subregistro * (0.25)$, entonces $subregistro = 400$, de los cuales 100 se observaron en los últimos tres días. La metodología para realizar las predicciones puede encontrarse en en esta liga, y el código en esta otra.
Para el análisis fueron utilizados los datos proporcionados por la Dirección General de Epidemiología, correspondientes a las bases de datos con cada fecha de corte desde el 12 de abril hasta el 26 de mayo de 2020. Únicamente las defunciones confirmadas por COVID-19 fueron tomadas en cuenta.
NOTA: El modelo aquí utilizado es un modelo sobre el proceso de arribo de registros de defunciones a las bases de datos, y no un modelo epidemiológico. El modelo toma los registros del pasado para hacer pronósticos hacia el futuro, por lo que la calidad de los resultados depende de que el proceso de registro de defunciones no cambie considerablemente. Esto quiere decir que si el proceso de registro cambiara, ya sea debido a variaciones en el estado de la pandemia o a variaciones en la metodología de registro de las autoridades, las predicciones podrían no ser precisas.
Desfase temporal en los registros de defunciones
Para ilustrar el desfase temporal en el registro de las defunciones tomemos primero el número de muertes acumuladas registradas en las bases de datos con fechas de corte 7 de mayo. Luego, con los datos publicados el 26 de mayo, consideremos los fallecimientos que ya habían ocurrido en la primera fecha, pero no aparecían aún en la base de datos. Según los datos con fecha de corte al 7 de mayo, el número total de defunciones hasta esa fecha era de 2,961. Sin embargo, hubo 1,611 casos que ocurrieron antes del 7 de mayo, pero aparecieron días después, en el corte del 26 de mayo. Es decir, en los días subsecuentes al 7 de mayo, fueron registradas 1,611 defunciones que ocurrieron el 7 de mayo o antes, un aumento de 54% respecto al número que se tenía originalmente (Figura 1).
El desfase temporal en el registro implica que los datos que tenemos al día de hoy subestiman el número real de fallecidos a causa del virus. Para el caso ilustrado arriba, el subregistro es de más del 50% y tendríamos que esperar más de 3 semanas para saber de manera más certera cuántos fallecimientos de casos confirmados ha habido hasta el 7 de mayo. En la Figura 2, se puede apreciar cómo el número adicional de registros para el 7 de mayo disminuye con cada fecha de corte, indicando una menor cantidad de casos faltantes conforme el tiempo avanza. Este fenómeno se repite para todas las fechas, lo cual nos impide ver el avance de la pandemia con prontitud y que puede derivar en interpretaciones erróneas. Al 26 de mayo, hay contabilizadas 8,134 defunciones, así que la pregunta relevante es ¿cuántas defunciones faltantes al 26 de mayo, esperaríamos que fueran registradas en fechas futuras?
Prediciendo el número faltante de registros
Con los datos disponibles, es imposible saber cuál es el número de registros faltantes para el corte del día de hoy. Sin embargo, los datos con distinta fecha de corte nos permiten observar y calcular el retraso con que los nuevos registros llegan, y estimar el número de registros faltantes para fechas anteriores, en este caso, para el corte de hace tres días (23 de mayo). Según el modelo, al día 23 de mayo habría 10,066 defunciones a causa de COVID-19 (Figura 3). Este número contrasta con los 7,179 casos totales registrados en la base con esa fecha, y con los 7,930 registros acumulados hasta el 23 de mayo en la fecha de corte del 26 de mayo. Es decir, al 26 de mayo faltarían por contabilizar 2,136 = 10,066 – 7,930 defunciones acumuladas hasta el 23 de mayo, las cuales esperaríamos fueran contabilizadas en las próximas semanas. También, se puede ver que el modelo predice pocos registros faltantes para fechas lejanas en el pasado, pero que este número aumenta conforme nos acercamos a la fecha de hoy. Este comportamiento es el esperado, como se puede observar en la Figura 2. La validación del modelo se puede encontrar en esta nota técnica.
Implicaciones
Una de las implicaciones más relevantes es que al 23 de mayo se reportaron 7,179 muertes, pero conforme pasen las semanas, ese número estará más cercano a 10,066. Es decir, al número acumulado de muertes que se reportaron ese día, tendríamos que multiplicarlo por 1.4 para obtener una mejor aproximación de las defunciones que realmente sucedieron.
Una segunda implicación es el cálculo del tiempo de duplicación de defunciones, que está relacionado con la tasa a la que el número acumulado de defunciones crece. Como puede verse en la gráfica de arriba (Figura 3), la tasa a la que crece el número acumulado de defunciones para la última fecha de corte (línea negra) es menor que la estimación que se propone en este artículo (barra azul + barra roja), lo que implica un mayor tiempo de duplicación en el primer caso. Los tiempos de duplicación para los datos de la última fecha de corte es de 16.7 días, mientras que utilizando las defunciones estimadas por el modelo es de 13.5 días. Asumiendo que la tendencia se mantiene en las próximas dos semanas, entonces el número de defunciones esperadas para el 6 de junio sería de alrededor de 12,845 utilizando los datos del corte del 23 de mayo, pero de 20,678 si utilizamos el estimado. Estas cifras muestran dos realidades completamente diferentes.
Los datos más recientes sobre las defunciones a causa de COVID-19 son una fotografía incompleta que no nos permite ver con claridad el estado que guarda la pandemia en el país al día de hoy. Aún sin tomar en cuenta las muertes con status “sospechoso” y los casos que podrían no ser registrados, el número de defunciones que las bases publicadas registran es una cota inferior del número real de defunciones a causa del virus. Si este hecho no es tomado en cuenta en los análisis basados en estos datos, entonces cualquier conclusión será errónea, tendiendo a subestimar el número de casos, lo que podría dar la falsa impresión de que se ha llegado al pico de defunciones.