ChatPaper.aiChatPaper

I predittori genomici del token successivo sono apprendisti contestuali

Genomic Next-Token Predictors are In-Context Learners

November 16, 2025
Autori: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI

Abstract

L'apprendimento in contesto (ICL) – la capacità di un modello di inferire e applicare schemi astratti da esempi forniti all'interno del suo input – è stato ampiamente studiato nei grandi modelli linguistici addestrati per la predizione del token successivo su testo umano. In effetti, lavori precedenti attribuiscono spesso questo comportamento emergente a proprietà statistiche distintive del linguaggio umano. Ciò solleva una questione fondamentale: l'ICL può emergere organicamente in altri domini sequenziali, puramente attraverso un addestramento predittivo su larga scala? Per esplorare questa possibilità, ci rivolgiamo alle sequenze genomiche, un dominio simbolico alternativo ricco di struttura statistica. Nello specifico, studiamo il modello genomico Evo2, addestrato prevalentemente sulla predizione del nucleotide successivo (A/T/C/G), su una scala paragonabile a modelli linguistici di medie dimensioni. Sviluppiamo un framework sperimentale controllato che comprende compiti di ragionamento simbolico istanziati sia in forma linguistica che genomica, consentendo un confronto diretto dell'ICL tra modelli genomici e linguistici. I nostri risultati mostrano che i modelli genomici, analogamente alle loro controparti linguistiche, mostrano miglioramenti log-lineari nell'induzione di pattern all'aumentare del numero di dimostrazioni in contesto. Per quanto a nostra conoscenza, questa è la prima evidenza di ICL emergentemente organico in sequenze genomiche, a supporto dell'ipotesi che l'ICL emerga come conseguenza della modellazione predittiva su larga scala su dati ricchi. Questi risultati estendono il meta-apprendimento emergente oltre il linguaggio, indicando una visione unificata e modale-agnostica dell'apprendimento in contesto.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.
PDF62December 1, 2025