Los predictores de tokens siguientes genómicos son aprendices en contexto.
Genomic Next-Token Predictors are In-Context Learners
November 16, 2025
Autores: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI
Resumen
El aprendizaje en contexto (ICL, por sus siglas en inglés) —la capacidad de un modelo para inferir y aplicar patrones abstractos a partir de ejemplos proporcionados en su entrada— ha sido ampliamente estudiado en modelos de lenguaje grande entrenados para la predicción del siguiente token en texto humano. De hecho, trabajos previos a menudo atribuyen este comportamiento emergente a propiedades estadísticas distintivas del lenguaje humano. Esto plantea una pregunta fundamental: ¿puede surgir el ICL de forma orgánica en otros dominios de secuencias puramente mediante el entrenamiento predictivo a gran escala?
Para explorar esto, nos dirigimos a las secuencias genómicas, un dominio simbólico alternativo rico en estructura estadística. Específicamente, estudiamos el modelo genómico Evo2, entrenado predominantemente en la predicción del siguiente nucleótido (A/T/C/G), a una escala comparable a la de modelos de lenguaje de tamaño medio. Desarrollamos un marco experimental controlado que comprende tareas de razonamiento simbólico instanciadas en formas tanto lingüísticas como genómicas, permitiendo una comparación directa del ICL entre modelos genómicos y lingüísticos. Nuestros resultados muestran que los modelos genómicos, al igual que sus contrapartes lingüísticas, exhiben ganancias logarítmico-lineales en la inducción de patrones a medida que aumenta el número de demostraciones en contexto. Hasta donde sabemos, esta es la primera evidencia de ICL emergente de forma orgánica en secuencias genómicas, lo que respalda la hipótesis de que el ICL surge como consecuencia del modelado predictivo a gran escala sobre datos ricos. Estos hallazgos extienden el meta-aprendizaje emergente más allá del lenguaje, apuntando hacia una visión unificada y agnóstica a la modalidad del aprendizaje en contexto.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training?
To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.