Unidad de
Análisis de Datos 

Responsable
Dr. Guillermo Ortega Rabbione

Dirección
C/ Diego de León 62 – 7ª planta del Hospital.
28006 Madrid

Teléfono
91 520 22 00 Ext: 17304/17305

E-mail

guillermojose.ortega@salud.madrid.org

La Unidad de Análisis de Datos (UAD) del Instituto de Investigación Sanitaria del Hospital de la Princesa (IIS-IP) tiene como fin brindar a los investigadores, tanto básicos como clínicos, apoyo, asesoramiento y colaboración activa en el análisis numérico y visualización de datos provenientes de las bio-áreas.

Pretende actuar como “una primera consulta” y asesoramiento en muchos de los temas, además de ser un sólido apoyo en las áreas en las que tenemos una mayor y probada experiencia. Debido al alto grado de informatización existente en todo el equipamiento médico como por ejemplo historias clínicas, registros a través de monitores temporales externos, internos o portátiles, secuenciadores, etc., es necesario el empleo de herramientas y metodología especialmente diseñadas para el tratamientos de las cada vez mayores cantidades de datos.

Por todo ello la UAD es clave para el desarrollo de los proyectos de investigación de nuestro centro, en muchos casos proyectos multidisciplinares, multicéntricos, nacionales o internacionales.

Dr. Guillermo J. Ortega
Doctor en Física

Dr. Ancor Sanz-García
Doctor en Neurociencia

Ing. Miriam Pérez-Romero
Ingeniera Biomédica

Ordenadores

Actualmente la Unidad cuenta estaciones de trabajo aptas para el calculo numérico intensivo con altas prestaciones (un servidor Hewlett Packard Z600 y una estación de trabajo con 10 núcleos, 128GB de memoria RAM y tarjeta grafica NVIDIA GTX 1080 Ti de 11GB, apta para cálculo basado en GPU).

Almacenamiento

La Unidad posee instalaciones de almacenamiento hasta 80 TB lo que la hace especialmente apta para el procesamientos de grandes cantidades de datos bioinformáticos, especialmente los obtenidos en secuenciadores de próxima generación (NGS).

  • Análisis de series temporales de sistemas biofísicos

  • Análisis masivo de registros neurofisiológicos multimodales (EEG, EKG, PIC, etc.)

  • Análisis por medio de la teoría de caos en registros telemétricos de actividad y temperatura corporal en modelos animales (hámster, ratas, etc.)
  • Análisis de series temporales de “spikes” provenientes de registros extracelulares de multielectrodos. Código neuronal

  • Análisis y clasificación de imágenes celulares usando métodos de multi-fractalidad
  • Modelos biofísicos de comunicación celular por medio de gap-junctions
  • Modelización biofísica de tejidos excitables
  • Uso de teoría de redes complejas para el estudio de registros fisiológicos humanos

  • Desarrollo de métodos de análisis de series temporales basadas en la teoría de caos
  • Implementación de técnicas de machine learning
  • Desarrollo de algoritmos para la normalización de los datos en el análisis de expresión de miRNAs

  • Desarrollo de programas para el análisis de microarrays de metilación del DNA

  • Análisis de datos provenientes de secuenciación masiva, en concreto programas de control de calidad.
  • Métodos de visualización de redes complejas
  • Manejo de diversos lenguajes de programación (R, fortran, python, shell scripting, etc.) y sistemas operativos (Windows, Unix)
  • Diversas técnicas de data minning

Publicaciones representativas en distintas áreas temáticas:

Monitorización no invasiva de la presión intracraneal

  • Sanz-Garcia et al. (2018) Identifying causal relationships between EEG activity and intracranial pressure levels in neurocritical care patients. J Neural Eng.

Epilepsia

  • Sanz-Garcia et al. (2017) Towards Operational Definition of Postictal Stage: Spectral Entropy as a Marker of Seizure Ending. Entropy. 19:81.
  • Sanz-Garcia et al. (2016) Network Analysis of Foramen Ovale Electrode Recordings in Drug-resistant Temporal Lobe Epilepsy Patients. J. Vis. Exp. 118:e54746.
  • Vega-Zelaya L et al. (2016) Assessing the equivalence between etomidate and seizure network dynamics in temporal lobe epilepsy. Clin Neurophysiol. 127:169-178.
  • Vega-Zelaya L et al. (2015) Disrupted Ipsilateral Network Connectivity in Temporal Lobe Epilepsy. PLoS One. 10:e0140859.
  • Palmigiano A et al. (2012) Stability of Synchronization Clusters and Seizurability in Temporal Lobe Epilepsy. PLoS One 7:e41799.
  • Ortega GJ et al. (2011) Impaired mesial synchronization in temporal lobe epilepsy. Clin Neurophysiol. 122:1106-1116
  • Ortega GJ et al. (2008) Synchronization clusters of interictal activity in the lateral temporal cortex of epileptic patients: Intraoperative electrocorticographic analysis. Epilepsia 49:269-280

Epigenetics

  • Ovejero-Benito et al. (2018) Epigenetic biomarkers associated with anti-TNF drugs response in moderate-to-severe psoriasis. Br J Dermatol. 178:798-800.

miRNAs

  • Martínez-Hernández et al. (2018) A microRNA signature for evaluation of risk and severity of Autoimmune Thyroid Diseases. J Clin Endocrinol Metab. 103:1139-1150.

Análisis de series temporales de registros extracelulares de multielectrodos

  • Ortega GJ et al. (2004) Conditioned Spikes: A simple and fast method to represent rates and temporal patterns in multielectrode recordings. J of Neurosci Methods 133:135-141.

Análisis y clasificación de imágenes celulares usando métodos de multi-fractalidad

  • Fernandez E et al. (1999) Are Neurons Multifractals? J Neurosci Methods 89:151.

Modelos biofísicos

  • Boschi CD et al (2001) Triggering synchronized oscillations through arbitrarily weak diversity in close-to-threshold excitable media. Phys Rev E 63:12901
    Andreu E et al. (2000) Role of Architecture in Determining Passive Electrical Properties in Gap-Junction Connected Cells. Pflügers Arch – Eur J Physiol 439:789-97

Desarrollo de métodos de análisis de series temporales basadas en la teoría de caos

  • Ortega G et al. (1998) Smoothness Implies Determinism in Time Series: A Measure Based Approach. Phys Rev Lett 81:4345.

TARIFAS

PERSONAL IISHUP PERSONAL EXTERNO
Consultas sin análisis numérico Gratuito 30 €/hora
Consultas con análisis numérico 21€/hora 50€/hora
Asesoría proyectos (con análisis numérico y/o elaboración informes) 27 €/hora 70 €/hora
Formación/Cursos (R, Linux, Machine Learning) 50 €/hora 80 €/hora
Desarrollo de scripts 30 €/hora 70 €/hora
Uso de recursos informáticos (estación de trabajo, software) 100 €/año 400 €/año

Modelo Numérico de propagación de COVID-19 en la Comunidad de Madrid. Posibles escenarios para distintos tipos de intervenciones no-farmacológicas y tipos de desescaladas

La Unidad de análisis de Datos del IIS del Hospital de la Princesa ha desarrollado un modelo de análisis epidemiológico compartimental que permite estudiar la evolución de los distintos estados de la población de la comunidad de Madrid ante varios escenarios. El método tiene en cuenta a la población general dividida en los siguientes compartimientos:

  • (S) Susceptibles: Aquellas personas susceptibles de contraer la enfermedad COVID-19 pero que todavía no han sido contagiados
  • (I) Infectados: Aquellas personas que ya han sido contagiadas con síntomas “leves” y por lo tanto no requieren hospitalización
  • (H) Hospitalizados: Aquellas personas que por su evolución del COVID-19 necesitan ser hospitalizados
  • (C) Cuatentenados: Parte de la población que se encuentran en cuarentena y por lo tanto está “protegida” de contraer la enfermedad
  • (M) Muertes: Número de personas que han fallecido debido al agravamiento de la enfermedad
  • (R) Recuperados: Aquellas personas que se han recuperado satisfactoriamente del COVID-19

No se ha tenido en cuenta un compartimiento para Expuestos, esto es, contagiados asintomáticos que no transmiten la enfermedad, ya que en el caso de infecciones por SARS-CoV-2 es muy probable que el pico de “contagiosidad” de los infectados se encuentra antes de que comiencen los síntomas [1]. Por lo tanto hemos considerado que todos los contagiados son contagiosos.

Debido a estos compartimentos, hemos llamado al modelo SIHCMR. además, el modelo permite estudiar la dinámica de interacción entre los compartimientos en distintas poblaciones, las cuales no se encuentra aisladas, sino que, por el contrario, pueden intercambiar personas en algunos de los estados S, I y R.

El modelo ha sido desarrollado en R sobre la base del paquete R SimInf [2].

El siguiente grafico muestras posibles “transiciones” que pueden aparecer a lo largo de la evolución de contagio en una población determinada.

[1] Temporal dynamics in viral shedding and transmissibility of COVID-19. (2020) Nature medicine, 26(5), 672-675.

[2] Journal of Statistical Software November 2019, Volume 91, Issue 12. doi: 10.18637/jss.v091.i12

Modelos epidemiológico SIRHCM espacial

Puesto que el modelo permite estudiar tanto las transiciones entre compartimientos como así también el flujo de personas, transmisoras de la enfermedad entre distintas regiones, un esquema mas completo del modelo es el que se muestra en la siguiente Figura, en donde el flujo de personas que pueden estar en los estados S, I o R pueden moverse entre municipios.

De acuerdo a lo anterior por tanto es posible estudiar diversas situaciones a las cuales puede enfrentarse la Comunidad de Madrid y de esta forma evaluar la mejor estrategia no farmacológica a implementar, de tal forma que el costo social y sanitario sea el menor posible.

A modo de ejemplo se muestran algunos casos de “prueba”

Ejemplo 1: Inicio de la epidemia de COVID-19 en Madrid, sin cuarentena. 5 casos iniciales

Parámetros

Datos modelo COVID-19:

β (tasa de transmisión)= 0.24

γ (tasa de recuperación)=0.072

α (proporción –sobre hospitalizados- de muertes en hospital)=0.05

δ (proporción –sobre la población- de hospitalización)=0.05

R0 = β/γ = 3.3

Datos Madrid: Poblaciones de los distintos municipios de la Comunidad de Madrid

Flujo de personas: 5% de poblaciones cercanas se desplazan (ida y vuelta en el día) entre poblaciones de mas de 30.000 habitantes.

En esta figura se muestra la evolución de los compartimentos para el caso de una evolución “libre” sin que exista ninguna intervención como cuarentena y/o distanciamiento.

Se muestra la evolución para los 9 municipios de Madrid de mas de 30.000 habitantes.

En todos los casos existe un movimiento de personas entran/salen de cada municipio con los vecinos, de un 5%.

El comienzo de la infección es en Madrid con 5 casos. La línea punteada marca el máximo de infecciones en Madrid ciudad.

Se ve que en todos los municipios grandes, salvo en Rivas-Vaciamadrid, el pico de infecciones se encuentra después del de Madrid. En Rivas Vacia-Madrid no existe contagios.

En esta Figura se muestra una ampliación de la evolución de los Infectados, Hospitalizados y muertes (D) para el caso de Madrid ciudad. El pico de infectados es aproximadamente a los 78 días del comienzo de la infección (día 0).

Notar que la cantidad de fallecidos es acumulada ya que no cambian de estatus. En este caso, ideal con los parámetros usados, la cantidad de fallecidos llega a aproximadamente 100.000 personas.

El pico de hospitalizados es de 43000 a los 87 días del comienzo de la infección

Ejemplo 2: Inicio de la epidemia de COVID-19 en Madrid, con 150 días de cuarentena. 5 casos iniciales

“Segunda ola” de contagios

En este caso, con las mismas condiciones iniciales que el ejemplo anterior, se aplica una cuarentena a todos los municipios del 50% de la población de individuos susceptibles (S). Esto es, al día 50, ya comenzada la infección y propagación, el 50% de la población de susceptibles queda aislada hasta el día 200 desde el comienzo de la infección. Se puede ver que en este caso, alguna de las ciudades no llegan contagiarse (San Sebastián de los Reyes, Coslada, Las Rozas y Boadilla). En otras en cambio se retrasa el inicio de la infección hasta después del fin de la cuarentena. El caso de Madrid es más complicado.

En la Figura de abajo se muestra en detalle la evolución de los I, H y D. las líneas punteadas señalan el inicio y el fin de la cuarentena.

En Madrid al día de inicio de la cuarentena del 50% de la población susceptible (día 50) se cambia el crecimiento de la curva de infectados haciendo que el pico sea menor, durante la cuarentena, que si no la hubiera. Para los hospitalizados, durante la cuarentena hay un pico de 8180 al día 111 desde el inicio de la epidemia, durante la cuarentena, y otro mayor de 17000 hospitalizados a los 269 días.

Ejemplo 3: Inicio de la epidemia de COVID-19 en Madrid, con dos cuarentenas seguidas, una de 150 días y otra seguida de 100 días. 5 casos iniciales

En este caso, con las mismas condiciones iniciales que el ejemplo anterior, se aplica una cuarentena a todos los municipios del 50% de la población de individuos susceptibles (S) durante 150 días, y 50 días después, otra de 100 días más.

Aquí varios municipios se ven libros del contagio. El caso de Madrid se comenta en la otra figura.

La línea punteada marca el

En la Figura de abajo se muestra en detalle la evolución de los I, H y D. las líneas punteadas señalan el inicio y el fin de las cuarentenas.

En Madrid al día de inicio de la cuarentena del 50% de la población susceptible (día 50) se cambia el crecimiento de la curva de infectados haciendo que el pico sea menor, durante la cuarentena, que si no la hubiera. Para los hospitalizados, durante la primera cuarentena hay un pico de 8180 al día 111 desde el inicio de la epidemia, y durante la segunda cuarentena durante la cuarentena, y otro mayor de 14000 hospitalizados a los 259 días.

Evolución espacio-temporal del modelo SIRHCM en la comunidad de Madrid

En esta Figura podemos ver la evolución espacial en al comunidad de Madrid del porcentaje, respecto de la población de cada municipio, de la epidemia

Porcentaje de Infectados, respecto de la población en cada comunidad

Número de hospitalizados en cada comunidad

Estudios actuales de estrategias de mitigación en la Comunidad de Madrid. Casos de rebrotes y olas sucesivas de contagios

Muchos de los modelos actuales de COVID-19 prevén una segunda “ola de contagios” pasada la inicial y en otros escenarios, varias olas sucesivas [3], por lo que es necesario desarrollar estrategias de prevención

Actualmente estamos trabajando con el modelo estudiando distintas situaciones de interés para la sanidad publica de Madrid, con datos reales de la cobertura sanitaria del área única de la comunidad de Madrid y de los 262 Centros de Salud de atención primaria asociados a cada uno de los 11 sectores en que se divide esta. El trabajo tiene en cuenta la población asignada a cada C.S. por tramos etarios y factores de riesgo para COVID-19 –diabetes, obesidad, EPOC, etc.-

En este entorno, se están estudiando los siguientes posibles escenarios para el caso de la “segunda ola” y sucesivas olas de contagios

  • Estimación de los parámetros reales del modelo (b, g, a, d) SIHCMR para la comunidad de Madrid
  • Estrategias de Mitigación en la comunidad de Madrid (I): Efectos de las cuarentenas, optimización del periodo de días de la cuarentena y porcentaje de la población de susceptibles.
  • Estrategias de Mitigación en la comunidad de Madrid (II): Efectos de medidas de distanciamiento y sanitarias en la población de Madrid
  • Estrategias de Mitigación en la comunidad de Madrid (III): Compartimentalización de municipios, aislamiento de poblaciones de riesgo.
  • Determinar la “inmunidad de rebaño” para cada población en determinadas condiciones
[3] COVID-19: The CIDRAP Viewpoint: Part 1: The Future of the COVID-19 Pandemic: Lessons Learned from Pandemic Influenza.

Bibliografía consultada (parte)

  • SimInf: An R package for Data-driven Stochastic Disease Spread Simulations
  • Data-based analysis, modelling and forecasting of the COVID-19 outbreak
  • Improved inference of time-varying reproduction numbers during infectious disease outbreaks
  • Substantial undocumented infection facilitates the rapid dissemination of novel coronavirus (SARS-CoV-2)
  • Temporal dynamics in viral shedding and transmissibility of COVID-19
  • Methods for estimating disease transmission rates: Evaluating the precision of Poisson regression and two novel methods
  • A mathematical description of the dynamics of coronavirus disease 2019 (covid-19): a case study of brazil
  • Hospitalization Rates and Characteristics of Patients Hospitalized with Laboratory-Confirmed Coronavirus Disease 2019 — COVID-NET, 14 States, March 1–30, 2020
  • Early dynamics of transmission and control of COVID-19: a mathematical modelling study
  • Common trends in the epidemic of Covid-19 disease
  • Feasibility of controlling COVID-19 outbreaks by isolation of cases and contacts
  • Early Transmission Dynamics in Wuhan, China, of Novel Coronavirus–Infected Pneumonia
  • Substantial undocumented infection facilitates the rapid dissemination of novel coronavirus (SARS-CoV-2)
  • The effect of travel restrictions on the spread of the 2019 novel coronavirus (COVID-19) outbreak
  • COVID-19: The CIDRAP Viewpoint: Part 1: The Future of the COVID-19 Pandemic: Lessons Learned from Pandemic Influenza
  • Estimates of the severity of coronavirus disease 2019:a model-based analysis