Filodinámica, el otro rastreador de coronavirus
Este nuevo campo de estudio
desarrolla árboles genealógicos basados en los rastros encontrados en el genoma
del virus y en los algoritmos.
Mapa mundial que muestra el origen de las secuencias genéticas y las probables importaciones del virus de un país a otro. NEXTSTRAIN |
El público en general está
acostumbrado a que el ADN ayude a confundir a los culpables, gracias a las
noticias o a las series de televisión. Pero con el brote de Covid-19, un tipo
diferente de policía genética anda suelto. Si bien no hay duda de que el virus
del SARS-CoV-2 es, en efecto, responsable de casi 165.000 muertes, su
composición genética está en proceso de revelar a los especialistas cuándo
infectó a los seres humanos, de dónde vino, con qué rapidez se propagó y a
cuántas personas afectó.
Estos nuevos policías son
filodinámicos, representantes de una disciplina que aún no tiene veinte años y
que está mostrando todo su potencial con la actual pandemia. El descubrimiento
de la probable transición de murciélago a humano. Eso es filodinámica. ¡El
origen de la contaminación en noviembre de 2019 en China? Es ella otra vez.
¿Signos de que la epidemia está disminuyendo en algunos países? Sigue siendo
ella. Los múltiples orígenes de la epidemia en Francia. Una y otra vez es ella.
"La idea de la filodinámica
es que la forma en que se propagan los virus deja rastros en su genoma",
dice Samuel Alizon, investigador del CNRS con el equipo de Evolución Teórica y
Experimental del laboratorio de Enfermedades Infecciosas y Vectores: Ecología,
Genética, Evolución y Control en Montpellier. Estos rastros son tan diminutos
que deben ser examinados cuidadosamente para hacerlos "hablar", de lo
contrario pueden cometer graves errores. Son cambios muy pequeños en la
secuencia de unas 30.000 "letras" que componen el genoma de este
virus. Una sola letra de diferencia entre dos genomas ya es una información
valiosa.
Una
disciplina que debe ser manejada con cuidado
Ya el 20 de enero, una de las
estrellas del campo, Trevor Bedford, del Centro de Cáncer Fred Hutchinson en
Seattle (EE.UU.), se aseguró, como escribe
en su blog, que el virus que ha estado monitoreando desde principios de
enero es transmisible a los humanos. Una propiedad fundamental que condiciona
la gravedad de la enfermedad a escala mundial. China no declarará una
cuarentena en su primer brote hasta el 29 de enero.
La intuición de este científico
proviene del análisis de los genomas virales que llegaron de China el 10 de
enero. Son demasiado similares para creer que los pacientes fueron infectados
por animales. De hecho, como el virus ha estado en este depósito durante mucho
tiempo, debería existir en formas bastante variadas. Sin embargo, esta
diversidad está ausente en los genomas virales tomados de los primeros
pacientes. A menos que podamos imaginar que el mismo animal contaminó a tantos
humanos en diferentes lugares, tuvimos que enfrentarnos a la terrible evidencia
de que el coronavirus había encontrado un nuevo huésped y que se había vuelto
transmisible.
El mismo especialista pronto
llevaría a cabo una segunda investigación, esta vez para poner fin a un rumor.
El 31 de enero, un equipo indio afirmó que el genoma viral tenía similitudes
con el del VIH, lo que implicaba una manipulación genética artificial. Trevor
Bedford, al día siguiente de esta "publicación" (el artículo sólo se
puso en línea en un sitio especializado, sin evaluación por parte de una
revista científica), desmanteló la hipótesis en Twitter. El tipo de variaciones
observadas también existen naturalmente en un coronavirus de murciélago. Y los
indios habrían comparado mal las secuencias entre sí, confundiendo un artefacto
sin sentido con una rica similitud de información. El episodio muestra que la
filodinámica debe ser manejada con cuidado.
También
lee El
Coronavirus, hecho del virus del SIDA... La muy controvertida tesis del
profesor Montagnier
Gran
y grave error
El 10 de abril, otro ejemplo de
las sutilezas de la técnica. Otra estrella en este campo, Andrew Rambaut de la
Universidad de Edimburgo, está poniendo en
la picota a sus colegas americanos que creen haber descubierto tres
variantes diferentes en las diversas cepas del virus, como afirman en una
importante revista, PNAS.
"Lo que más me irrita es que estos autores tomaron algunos datos de una
base de datos, los pusieron en un paquete de software fácil de usar, hicieron
suposiciones inapropiadas y publicaron lo que encontraron».
El especialista también observa
un grave error en la comparación con el coronavirus del murciélago. "Me
entristece un poco ser miembro de esta comunidad científica", dice en
Twitter otro especialista, François Balloux, profesor de bioinformática en el
University College London.
La filodinámica es, por lo tanto,
un arte sutil. Desde el comienzo de la epidemia de Covid-19, la diferencia
entre los nuevos genomas y el primero es de menos de veinte letras de
diferencia de unas 30.000. Este es un orden de magnitud similar a la tasa de
error de las técnicas de secuenciación, de aproximadamente una letra errónea en
10.000 lecturas. Por el contrario, la diferencia es de más de 1.000 letras
entre el probable reservorio del coronavirus, el murciélago rinolófilo de
Yunnan, y el primer humano afectado.
Calculando
la velocidad de las mutaciones
"Un centenar de secuencias
genéticas contienen tanta información como las recogidas de todos los casos
detectados", dice Samuel Alizon en defensa del interés de su disciplina
por comprender las epidemias. Las primeras observaciones y controversias fueron
seguidas rápidamente por nueva información a medida que llegaban secuencias de
todo el mundo. El sitio de Gisaid, donde
se depositaron estas secuencias, contó 9.300 de ellas el 16 de abril! Para uno
de mis artículos en Science en 2009 sobre la gripe A H1N1, tuvimos... 11!"
recuerda François Balloux, entonces en el Imperial College. En este momento, mi
equipo está procesando casi 1.000 secuencias al día».
Una de las primeras informaciones
que estos investigadores extraen se refiere a la velocidad de las mutaciones,
es decir, el número de cambios de letras por año. Cuantos más genomas haya,
mejor será el cálculo, ya que se trata de hacer estadísticas sobre la evolución
de las diferencias entre la secuencia original y las nuevas. Se aproximaría a
una tasa de cambio anual del 0,08%. Eso es un poco menos que para la gripe o el
VIH, pero mucho más que para el genoma humano. El detalle es importante porque
le da al reloj molecular del virus, incluyendo la capacidad de retroceder en el
tiempo.
Conociendo el tiempo y las
últimas secuencias, podemos volver al origen del tiempo. Así pues, Andrew
Rambaut ha
calculado, a partir de 176 genomas, una probable llegada del virus a los seres
humanos entre finales de agosto y principios de diciembre de 2019, con una
mayor probabilidad para noviembre, mucho antes de la identificación del primer
caso. Su colega Tanja
Stadler, del Instituto Federal Suizo de Tecnología de Zurich, que ha estudiado
128 genomas, se encuentra en la misma fecha, entre noviembre y mediados de
diciembre.
Estas mutaciones, o
sustituciones, también se estudian de otra manera. Su ritmo es una cosa, su
ubicación en la larga cadena de ARN (ácido ribonucleico) del virus es otra.
Cada parte de esta secuencia codifica la producción de las proteínas necesarias
para el ciclo del virus: adhesión al objetivo, penetración, desviación del
material del huésped, replicación, proliferación de nuevos virus y expulsión a
otras células.
Ya se han identificado menos de
treinta proteínas, pero su papel no siempre está definido. Algunas mutaciones
son neutrales, es decir, no influyen en el comportamiento del virus. Otros
pueden cambiar la naturaleza del virus y por lo tanto su peligrosidad o contagio.
“Hasta ahora, no se ha informado de nada de eso. Sólo tenemos cuatro secuencias
que muestran cambios en una proteína clave, pero nada confirmado", dice
Balloux. Él está interesado en las partes estables del virus, ya que éstas
serán objetivos relevantes para una posible cura. Si se dirige a las porciones
demasiado cambiantes, la vacuna o la droga perderían rápidamente su eficacia.
Algoritmos
para llenar los vacíos
Pero la verdadera fuerza de la
filodinámica es que mezcla esta información tanto del tiempo como del
"espacio". Otra disciplina le ayuda en esta tarea: las matemáticas.
Al igual que los genealogistas, los expertos quieren saber cuáles son los
"padres probables" de una secuencia, las cepas de las que evolucionó.
Así que intentan poner cada uno de los genomas virales de los individuos
muestreados en un plano bidimensional y ver cómo comparten las mismas
mutaciones y cómo se relacionan.
Aparece entonces un árbol con
"hojas", que son los genomas secuenciados, ramitas, luego ramas más o
menos agrupadas, más o menos largas, según correspondan a un número pequeño o
grande de mutaciones. Pero como no podemos tener todas las secuencias de todos
los individuos, este "árbol" perfecto está fuera de alcance. Los
huecos tienen que ser llenados por las matemáticas.
Los algoritmos tratan de inferir
los vínculos entre las hojas proponiendo el árbol genealógico más probable que
corresponda a los datos recogidos. Esto significa que con cada modelo
matemático distinto, se puede obtener un árbol con ramas ligeramente
diferentes. Esta reconstrucción, propuesta en 1981 por Joseph Felsenstein,
realmente abrió el campo... ¡veinte años después! No sólo tuvimos que esperar
hasta que tuviéramos suficientes secuencias, sino que los cálculos requirieron
una potencia de computadora que no existía en ese momento.
Hoy en día, todo está ahí. Los
especialistas están cultivando árboles en abundancia. Incluso el público en general
puede captar todo el poder de estos nuevos análisis gracias al sitio
Nextstrain, que recoge los genomas de Gisaid, y luego los procesa usando varios
algoritmos para hacer estos árboles, bellamente presentados.
Es casi obvio que las
contaminaciones en los Estados Unidos tuvieron varios orígenes. Como en Francia
o Italia. "El bucle está cerrado", incluso indica un último
"resumen" del sitio, que subraya las nuevas infecciones de China
procedentes del extranjero.
Encontrar
el mejor conjunto de parámetros
Eso no es todo. Otras
herramientas matemáticas establecerán definitivamente el papel de la
filodinámica en el estudio de las pandemias. Si, además del reloj molecular y
la "genealogía", añadimos la dinámica de la epidemia en el campo,
teniendo en cuenta el número de contactos, los tiempos de incubación y de
contaminación, etc., los especialistas pueden entonces extraer sacudidas
genéticas de la información que sólo los epidemiólogos han tenido hasta ahora.
En otras palabras, ¿cuánto tiempo tarda en duplicarse el número de pacientes?
¿Cuántas personas están infectadas por una persona? O, incluso, ¿cuántas
personas están enfermas?
De hecho, todos estos puntos tienen
una influencia en el propio virus. Una fase de crecimiento exponencial de una
epidemia no generará la misma familia o árbol filogenético que una enfermedad
endémica. El árbol del virus de la gripe, por ejemplo, es muy diferente al del
coronavirus. "En la gripe, tenemos arbustos y una fuerte competencia que
hace que una cepa prevalezca sobre las otras cada año. Con el SARS-CoV-2,
todavía no vemos los efectos potenciales de esta competencia, y los diferentes
subgrupos pueden no serlo realmente", dice Olivier Gascuel, director de
investigación del CNRS y del Instituto Pasteur y miembro de la Academia
Francesa de Ciencias.
Por lo tanto, un algoritmo busca
el mejor conjunto de parámetros, el que mejor se ajusta a los datos genéticos.
Mientras que el software PhyML, IQ-TREE o RaxML se lleva la mayor parte de los
análisis para el cálculo de árboles, esta segunda etapa está dominada por Beast
y Beast2. El equipo de Tanja Stadler, que contribuye al desarrollo en curso de
estas "bestias", ha producido muy rápidamente sus estimaciones de los
parámetros clave de la epidemia. El 6 de marzo, por ejemplo, de 128 genomas,
sus estimaciones sitúan la tasa de reproducción -es decir, el número de
personas infectadas en promedio por un primero- entre 2 y 3,5, un valor coherente
con lo que dice la epidemiología clásica. También estima que en China, en el
momento en que se registraron oficialmente 570 casos, el número real era de
entre 2.000 y 30.000.
Barras
de error
Samuel Alizon también participó
en el ejercicio para
Francia. Según sus cálculos, el ancestro común de la mayoría de las
secuencias francesas habría surgido entre mediados de enero y mediados de
febrero. El tiempo de duplicación de la epidemia habría pasado de 2,5 días al
principio de la epidemia a 5 días, si tenemos en cuenta los pacientes más
recientes. Estas cifras están en línea con las tomadas de las curvas de la
evolución del número de casos. La tasa de reproducción también varió,
habiéndose reducido a la mitad entre el período del 21 de febrero al 11 de
marzo y el período del 19 de marzo al 22 de marzo, después de la contención.
Obviamente, como señala el investigador, estos resultados deben tomarse con
precaución, porque el número de secuencias es, en última instancia, pequeño,
las secuencias no son necesariamente representativas y las estimaciones tienen
barras de error.
"En los años 90, recuerdo
que la gente no veía el significado de estas técnicas o el profundo interés de
las reconstrucciones evolutivas en la comprensión de la biología actual. Para
ellos, la filogenia era una reminiscencia del antiguo museo de historia natural
y de la época de Darwin. También hay que decir que había pocos genomas
secuenciados", recuerda Olivier Gascuel, pionero en Francia en este campo
y coautor del software PhyML.
"Trabajar con datos en
tiempo real es muy motivador. Como está ayudando a despejar la niebla sobre
esta epidemia", subraya Jérémie Sciré, estudiante de doctorado del equipo
de Tanja Stadler, que participa en el grupo de trabajo suizo sobre Covid-19.
También es el momento de compartir información, como lo demuestran el software
con códigos abiertos, la profusión de secuencias y el foro
"Virological.org", en el que se han anunciado las primeras
secuencias.
Como resultado, el campo se
enfrenta a una crisis de crecimiento. "El principal desafío es ir a
escala. Herramientas como la Bestia no pueden procesar más de 1.000 genomas!
"dice Olivier Gascuel, que está desarrollando técnicas para mejorar los
algoritmos actuales y responder a la inflación. El mismo camino está siendo
seguido por el equipo de Tanja Stadler. También quiere profundizar en los
nuevos vínculos entre la epidemiología de campo, que construye árboles de
transmisión, y la genética, con sus árboles genealógicos. "Podríamos
detectar posibles diferenciales de transmisión según el género, o rastrear la
propagación del virus entre diferentes regiones o ciudades", le gusta
pensar a Samuel Alizon, cuyo proyecto sobre este tema sólo fue retenido como
lista complementaria por la Agencia Nacional de Investigación durante su última
licitación. El árbol de la filodinámica aún no ha encontrado su lugar en la
selva de la investigación...
No hay comentarios:
Publicar un comentario