ゲノミック次トークン予測モデルはインコンテキスト学習器である
Genomic Next-Token Predictors are In-Context Learners
November 16, 2025
著者: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI
要旨
インコンテクスト学習(ICL)――すなわち、モデルが入力内に提供された事例から抽象的なパターンを推論し適用する能力――は、人間のテキストに対する次トークン予測で訓練された大規模言語モデルにおいて広く研究されてきた。実際、従来の研究では、この創発的振る舞いはしばしば人間の言語に特有の統計的特性に帰因されるとされる。これは根本的な疑問を提起する:ICLは、他の系列領域においても、大規模な予測訓練のみを通じて有機的に出現しうるのか?
この疑問を探るため、我々は統計的構造に富む別の記号的領域であるゲノム配列に着目する。具体的には、中規模のLLMに匹敵する規模で、主に次ヌクレオチド(A/T/C/G)予測により訓練されたゲノムモデル「Evo2」を研究対象とする。我々は、言語的形態とゲノム的形態の両方で具体化された記号的推論タスクからなる制御実験フレームワークを開発し、ゲノムモデルと言語モデル間でのICLの直接比較を可能にした。その結果、ゲノムモデルは言語モデルと同様に、インコンテクストで提示する事例数が増加するにつれて、パターン誘導の性能が対数線形的に向上することを示した。我々の知る限り、これはゲノム配列において有機的に創発したICLの初めての証拠であり、ICLが豊富なデータに対する大規模な予測モデリングの帰結として出現するという仮説を支持する。これらの発見は、創発的メタ学習を言語の枠を超えて拡張し、モダリティに依存しない統一的なインコンテクスト学習の視点を示唆するものである。
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training?
To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.