ChatPaper.aiChatPaper

Les prédicteurs génomiques de token suivant sont des apprenants en contexte

Genomic Next-Token Predictors are In-Context Learners

November 16, 2025
papers.authors: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI

papers.abstract

L'apprentissage en contexte (ICL) – la capacité d'un modèle à inférer et à appliquer des motifs abstraits à partir d'exemples fournis dans son entrée – a été largement étudié dans les grands modèles de langage entraînés à la prédiction du token suivant sur du texte humain. En fait, les travaux antérieurs attribuent souvent ce comportement émergent à des propriétés statistiques distinctives du langage humain. Cela soulève une question fondamentale : l'ICL peut-il émerger organiquement dans d'autres domaines de séquences, uniquement par un entraînement prédictif à grande échelle ? Pour explorer cela, nous nous tournons vers les séquences génomiques, un domaine symbolique alternatif riche en structure statistique. Plus précisément, nous étudions le modèle génomique Evo2, entraîné principalement sur la prédiction du nucléotide suivant (A/T/C/G), à une échelle comparable aux modèles de langage de taille moyenne. Nous développons un cadre expérimental contrôlé comprenant des tâches de raisonnement symbolique instanciées sous des formes linguistiques et génomiques, permettant une comparaison directe de l'ICL entre modèles génomiques et linguistiques. Nos résultats montrent que les modèles génomiques, comme leurs homologues linguistiques, présentent des gains log-linéaires dans l'induction de motifs à mesure que le nombre de démonstrations en contexte augmente. À notre connaissance, il s'agit de la première preuve d'un ICL émergent organique dans des séquences génomiques, soutenant l'hypothèse selon laquelle l'ICL émerge comme une conséquence de la modélisation prédictive à grande échelle sur des données riches. Ces résultats étendent l'apprentissage méta émergent au-delà du langage, pointant vers une vision unifiée et agnostique à la modalité de l'apprentissage en contexte.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.
PDF62December 1, 2025