Genomische Next-Token Voorspellers zijn In-Context Leerders

Samenvatting

In-context learning (ICL) – het vermogen van een model om abstracte patronen af te leiden en toe te passen uit voorbeelden in zijn invoer – is uitgebreid bestudeerd bij grote taalmodellen die zijn getraind op next-token-predictie van menselijke tekst. Eerder werk schrijft dit emergent gedrag vaak toe aan onderscheidende statistische eigenschappen van menselijke taal. Dit roept een fundamentele vraag op: kan ICL op organische wijze ontstaan in andere sequencedomeinen, puur door grootschalige predictietraining? Om dit te onderzoeken, richten we ons op genomische sequenties, een alternatief symbolisch domein dat rijk is aan statistische structuur. Concreet bestuderen we het Evo2-genoommodel, hoofdzakelijk getraind op next-nucleotide (A/T/C/G)-predictie, op een schaal vergelijkbaar met middelgrote LLM's. We ontwikkelen een gecontroleerd experimenteel kader bestaande uit symbolische redeneertaken, geïnstantieerd in zowel linguïstische als genomische vormen, wat een directe vergelijking van ICL tussen genomische en linguïstische modellen mogelijk maakt. Onze resultaten tonen aan dat genomische modellen, net als hun linguïstische tegenhangers, log-lineaire verbeteringen vertonen in patrooninductie naarmate het aantal in-context-demonstraties toeneemt. Voor zover wij weten, is dit het eerste bewijs van organisch emergent ICL in genomische sequenties, wat de hypothese ondersteunt dat ICL ontstaat als gevolg van grootschalige predictiemodellering op rijke data. Deze bevindingen breiden emergent meta-leren uit voorbij taal, en wijzen in de richting van een verenigde, modaliteits-agnostische kijk op in-context learning.

English

In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.

Genomische Next-Token Voorspellers zijn In-Context Leerders

Genomic Next-Token Predictors are In-Context Learners

Samenvatting

Support