ChatPaper.aiChatPaper

Геномные предикторы следующего токена обучаются в контексте

Genomic Next-Token Predictors are In-Context Learners

November 16, 2025
Авторы: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI

Аннотация

Обучение в контексте (ICL) — способность модели выводить и применять абстрактные паттерны из примеров, предоставленных во входных данных, — широко изучалось в больших языковых моделях, обученных предсказанию следующего токена на текстах человека. Более того, предыдущие работы часто связывают это emergent-свойство со специфическими статистическими характеристиками человеческого языка. Это поднимает фундаментальный вопрос: может ли ICL органически возникать в других последовательностях исключительно за счет масштабного прогностического обучения? Чтобы исследовать это, мы обращаемся к геномным последовательностям — альтернативной символической области, богатой статистической структурой. В частности, мы изучаем геномную модель Evo2, обученную преимущественно на предсказании следующего нуклеотида (A/T/C/G) в масштабах, сопоставимых со средними языковыми моделями. Мы разработали контролируемую экспериментальную систему, включающую задачи символьного логического вывода, представленные как в лингвистической, так и в геномной формах, что позволяет напрямую сравнивать ICL между геномными и языковыми моделями. Наши результаты показывают, что геномные модели, подобно своим лингвистическим аналогам, демонстрируют логарифмически-линейный рост эффективности индукции паттернов с увеличением числа демонстраций в контексте. Насколько нам известно, это первое свидетельство органически emergent-ного ICL в геномных последовательностях, подтверждающее гипотезу о том, что ICL возникает как следствие масштабного прогностического моделирования на богатых данных. Эти результаты расширяют концепцию emergent-ного метаобучения за пределы языка, указывая на единый, модально-независимый взгляд на обучение в контексте.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.
PDF62December 1, 2025