Español

Nuevo modelo de IA lee y genera código genético en todos los dominios de la vida

Científicos han desarrollado un modelo de IA capaz de leer, analizar y generar código genético en todos los dominios de la vida conocidos. Este avance tiene enormes implicaciones para la comprensión de las enfermedades humanas, el diseño de nuevos tratamientos y el progreso del conocimiento biológico a una escala sin precedentes.

[Photo by garykbrixi (courtesy of Arc Institute)]

El modelo, llamado Evo 2, fue publicado en la revista Nature el 4 de marzo por un equipo de investigadores del Instituto Arc, una organización de investigación biomédica sin fines de lucro con sede en Palo Alto, California. A diferencia de los modelos de IA de uso común, como ChatGPT y Claude de Anthropic, que se basan en texto escrito en lenguajes humanos, Evo 2 fue entrenado completamente con secuencias de ADN: aproximadamente 9 billones de pares de bases extraídas de bacterias, plantas, animales y todos los demás dominios de la vida.

Patrick Hsu, cofundador e investigador principal del Instituto Arc y coautor principal del artículo, declaró a phys.org:

El desarrollo de Evo 1 y Evo 2 representa un hito clave en el campo emergente de la biología generativa, ya que estos modelos han permitido a las máquinas leer, escribir y pensar en el lenguaje de los nucleótidos.

Las posibles aplicaciones de este modelo son revolucionarias. Una herramienta capaz de predecir qué variaciones genéticas causan enfermedades, generar nuevas secuencias de ADN plausibles e identificar las propiedades funcionales de los genes en todos los ámbitos biológicos podría acelerar drásticamente el desarrollo de nuevos medicamentos, terapias génicas y herramientas de diagnóstico. Podría transformar la comprensión y el tratamiento del cáncer, los trastornos genéticos, las enfermedades autoinmunes y las enfermedades infecciosas. En un contexto de organización social racional y científicamente planificada, estas capacidades podrían estar al alcance de toda la humanidad.

Sin embargo, bajo el capitalismo, los beneficios de estos avances se canalizan inevitablemente hacia el lucro. Las grandes farmacéuticas y las empresas biotecnológicas que ya desarrollan aplicaciones basadas en modelos de IA biológica de código abierto patentarán los tratamientos derivados y les pondrán precio para maximizar las ganancias de los accionistas, no para mejorar la salud pública. La clase trabajadora, que genera la riqueza social que posibilita esta investigación, se verá privada en gran medida del acceso a los tratamientos que salvan vidas y que de ella se derivan.

Construcción del modelo

Para construir Evo 2, los científicos recopilaron secuencias de ADN de casi 10 bases de datos genómicas públicas en un único conjunto de datos masivo llamado OpenGenome2. Con 5,5 terabytes —una capacidad que supera con creces la de almacenamiento de una computadora portátil o estación de trabajo típica—, este conjunto de datos refleja la enorme magnitud del proyecto. Estas secuencias fueron aportadas por cientos de científicos de todo el mundo y se pusieron a disposición del público de forma gratuita, lo que demuestra el carácter colaborativo y no propietario del trabajo científico, que se resiste a los imperativos de la competencia capitalista.

Existen dos versiones principales del modelo: Evo 2 7B, con 7 mil millones de parámetros entrenados con 2,3 billones de pares de bases, y Evo 2 40B, con 40 mil millones de parámetros entrenados con el conjunto de datos completo. El modelo más grande es más potente, pero requiere muchos más recursos computacionales.

La creación de Evo 2 fue posible gracias a StripedHyena 2, una nueva arquitectura computacional que permitió entrenar el modelo con 30 veces más datos que su predecesor, Evo 1, procesando secuencias de hasta 1 millón de nucleótidos a la vez, mucho más largas que cualquier modelo de IA biológica anterior.

Tras construir el modelo, los científicos evaluaron su capacidad para realizar diversas tareas: predecir los efectos de las mutaciones genéticas, identificar variaciones causantes de enfermedades en el ADN humano, detectar propiedades funcionales de diferentes regiones del genoma y generar secuencias de ADN completamente nuevas.

Evo 2 predijo con éxito que las mutaciones en áreas críticas del ADN serían altamente dañinas, un hecho biológico bien conocido, pero que el modelo nunca había sido programado explícitamente para ello. Esta capacidad surgió completamente de los patrones presentes en los datos de secuencia sin procesar.

El modelo también predijo con precisión si las variantes genéticas humanas —término que los científicos ahora prefieren a «mutación», ya que no todas las variaciones causan enfermedades— provocarían alguna afección. Para inserciones y deleciones en secuencias de ADN, Evo 2 superó a todas las herramientas existentes. Para cambios más simples, de una sola letra en el código genético, su rendimiento fue comparable al de las mejores herramientas no entrenadas con ejemplos etiquetados, aunque no alcanzó el nivel de los modelos especializados entrenados con conjuntos de datos seleccionados.

La distinción es importante: Evo 2 es un modelo 'no supervisado', lo que significa que aprendió únicamente a partir de secuencias de ADN sin procesar, sin que se le indicara qué buscar. Los modelos entrenados con datos etiquetados por científicos —los llamados modelos 'supervisados'— tienen una ventaja inherente para tareas específicas. Que Evo 2 pueda igualar o superar a dichos modelos en muchas tareas, a pesar de aprender solo con datos sin procesar, es un logro significativo.

Evo 2 también identificó con precisión una variedad de características dentro de los genomas. En bacterias, identificó correctamente qué elementos genéticos eran capaces de moverse de una ubicación a otra en el genoma. En humanos, identificó con precisión los límites entre intrones y exones: los segmentos de un gen que se cortan o se conservan cuando el ADN se transcribe en el ARN mensajero (ARNm), que sirve como plantilla para la síntesis de proteínas. No se conocen todos estos límites en el genoma humano, por lo que una herramienta automatizada como Evo 2 tiene el potencial de impulsar enormemente el conocimiento biológico en poco tiempo.

Su capacidad para reconocer estas características surgió espontáneamente a partir de patrones en los datos de secuencia, evidencia de que el modelo ha desarrollado de forma independiente algo similar a una comprensión interna de cómo el ADN codifica el ARN y las proteínas.

Generación de nuevo código genético

Dado que Evo 2 también es un modelo generativo, puede producir nuevas secuencias de ADN utilizando una secuencia más corta como punto de partida, de forma análoga a como ChatGPT genera texto en respuesta a una instrucción escrita.

Los científicos probaron esta capacidad proporcionando a Evo 2 la primera parte de un gen y pidiéndole que completara el resto. En pruebas realizadas con seis especies diversas, el modelo generó con precisión entre el 70 % y casi el 100 % del gen restante.

En una prueba más ambiciosa, utilizaron Evo 2 para generar secuencias completas de ADN que codifican estructuras celulares complejas llamadas mitocondrias, los orgánulos responsables de la producción de energía en las células. En los humanos, los genes que codifican los componentes mitocondriales se encuentran dispersos en los 23 cromosomas, así como en el propio ADN de las mitocondrias. Con una mínima intervención, Evo 2 generó los mismos tipos y cantidades de genes que codifican las mitocondrias reales, con una alta similitud a las secuencias reales.

Los científicos también utilizaron Evo 2 para generar secuencias de ADN con altos niveles de 'accesibilidad de la cromatina', una propiedad que determina si un segmento de ADN es físicamente accesible a la maquinaria celular que activa los genes. Trabajando en conjunto con otros dos modelos especializados, Evo 2 logró producir secuencias novedosas con las propiedades deseadas, mientras que los enfoques más simples fracasaron.

Es importante destacar que, si bien estos resultados son muy significativos, las secuencias de ADN generadas por Evo 2 aún deben ser probadas en condiciones reales. Los autores reconocen que sus métodos de evaluación no garantizan que los genomas generados sean funcionales o capaces de replicarse durante la división celular.

Ciencia abierta y el sistema de lucro

Los científicos han puesto a disposición del público todas las versiones de Evo 2 y el conjunto de datos OpenGenome2 en el repositorio de modelos HuggingFace, en consonancia con la filosofía de código abierto que caracteriza a la mejor investigación científica moderna.

Hsu señaló:

Evo 2 posee una comprensión generalista del árbol de la vida, útil para multitud de tareas, desde la predicción de mutaciones causantes de enfermedades hasta el diseño de código potencial para la vida artificial. Nos entusiasma ver qué desarrolla la comunidad científica a partir de estos modelos fundamentales.

El carácter colaborativo del trabajo que dio origen a Evo 2 es extraordinario. Las secuencias de ADN en las que se basa fueron aportadas libremente por científicos de todo el mundo, recopiladas a partir de bases de datos públicas que abarcan todos los dominios de la vida. La arquitectura de IA que lo hizo posible estaba disponible públicamente. Y el modelo final, junto con su conjunto de datos curado, se puso a disposición de la comunidad científica.

Sin embargo, este trabajo colaborativo no se desarrolló al margen del sistema de lucro. El modelo más grande de Evo 2 se entrenó en 2048 GPU NVIDIA H100 utilizando la plataforma DGX Cloud de NVIDIA en Amazon Web Services, recursos proporcionados mediante una alianza formal entre el Arc Institute y NVIDIA, cuyos empleados figuran entre los coautores del artículo.

El Arc Institute se fundó con 650 millones de dólares provenientes de multimillonarios de Silicon Valley, entre ellos Patrick Collison, director ejecutivo de Stripe, la empresa de pagos valorada en 65 mil millones de dólares, quien es cofundador del instituto y coautor del artículo sobre Evo 2. Greg Brockman, cofundador y presidente de OpenAI, contribuyó a la arquitectura subyacente del proyecto durante un año sabático. Tanto Collison como Brockman tienen vínculos con la administración Trump y el gobierno israelí, principales responsables del genocidio en Gaza y de la guerra imperialista contra Irán.

La contradicción es evidente: el modelo de IA biológica más avanzado que existe se produjo mediante trabajo científico colaborativo y no patentado; sin embargo, se gestó dentro de estructuras corporativas y filantrópicas que, a su vez, son producto de la acumulación capitalista de riqueza. Las empresas farmacéuticas y biotecnológicas que utilizarán Evo 2 con fines comerciales no tienen la obligación de hacer que los tratamientos resultantes sean asequibles o universalmente accesibles, y no lo harán.

Herramientas como Evo 2 tienen el potencial de revolucionar la medicina, acelerando el descubrimiento de tratamientos para el cáncer, enfermedades genéticas y afecciones que actualmente no tienen cura. Podrían aumentar la esperanza de vida saludable a nivel mundial, transformar el diagnóstico y hacer de la medicina genómica personalizada una realidad para miles de millones de personas. Pero bajo el capitalismo, tales avances están destinados a enriquecer a unos pocos privilegiados. De hecho, los estratos más ricos de la sociedad ya tienen acceso a servicios médicos de lujo y atención médica personalizada que la gran mayoría de la población no puede costear. Los avances impulsados por la IA en medicina genómica profundizarán esta brecha a menos que la clase trabajadora intervenga para reorganizar la sociedad sobre bases socialistas.

Para liberar todo el potencial revolucionario de la IA —en medicina, ciencia, educación y cualquier otro ámbito— es necesario arrebatar el control de estas tecnologías a la oligarquía financiera y ponerlas bajo el control democrático de la clase trabajadora. El Comité Internacional de la Cuarta Internacional (CICI) ha demostrado en la práctica cómo la IA puede ponerse al servicio de la clase trabajadora, lanzando en diciembre de 2025 Socialism AI, el primer chatbot de IA marxista revolucionario del mundo, basado en el archivo del WSWS con más de 125.000 artículos y en las obras fundamentales de Marx, Engels, Lenin y Trotsky, y diseñado para impulsar la educación y organización política de los trabajadores y la juventud a nivel internacional.

El desarrollo de Evo 2 es una poderosa demostración de que los avances científicos más significativos surgen de la colaboración, la apertura y el libre intercambio de conocimientos, principios fundamentalmente incompatibles con el afán capitalista de lucro privado. La liberación de la ciencia y la tecnología para el beneficio de toda la humanidad exige la reorganización socialista de la sociedad por parte de la clase trabajadora internacional.

(Artículo publicado originalmente en inglés el 11 de marzo de 2026)