Genomische Next-Token-Predictoren sind In-Context-Lerner.
Genomic Next-Token Predictors are In-Context Learners
November 16, 2025
papers.authors: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI
papers.abstract
In-Context-Learning (ICL) – die Fähigkeit eines Modells, aus Beispielen in seiner Eingabe abstrakte Muster abzuleiten und anzuwenden – wurde intensiv bei großen Sprachmodellen untersucht, die für die Vorhersage des nächsten Tokens auf menschlichen Texten trainiert wurden. Tatsächlich wird dieses emergente Verhalten in früheren Arbeiten oft auf besondere statistische Eigenschaften der menschlichen Sprache zurückgeführt. Dies wirft eine grundlegende Frage auf: Kann ICL auch in anderen Sequenzdomänen rein durch groß angelegtes prädiktives Training organisch entstehen?
Um dies zu untersuchen, wenden wir uns genomischen Sequenzen zu, einer alternativen symbolischen Domäne, die reich an statistischer Struktur ist. Konkret untersuchen wir das Evo2-Genommodell, das vorwiegend für die Vorhersage des nächsten Nukleotids (A/T/C/G) trainiert wurde, in einem Umfang, der mit mittelgroßen LLMs vergleichbar ist. Wir entwickeln einen kontrollierten experimentellen Rahmen, der symbolische Reasoning-Aufgaben umfasst, die sowohl in linguistischer als auch in genomischer Form instanziiert werden. Dies ermöglicht einen direkten Vergleich von ICL zwischen genomischen und linguistischen Modellen. Unsere Ergebnisse zeigen, dass genomische Modelle, ähnlich wie ihre linguistischen Gegenstücke, logarithmisch-lineare Verbesserungen in der Musterinduktion zeigen, wenn die Anzahl der In-Context-Demonstrationen zunimmt. Nach unserem besten Wissen ist dies der erste Nachweis für organisch emergentes ICL in genomischen Sequenzen, was die Hypothese stützt, dass ICL als Folge groß angelegter prädiktiver Modellierung auf Basis reichhaltiger Daten entsteht. Diese Erkenntnisse erweitern emergentes Meta-Lernen über die Sprache hinaus und deuten auf eine einheitliche, modalitätsunabhängige Sichtweise von In-Context-Learning hin.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training?
To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.