Preditores de Próximo Token Genômicos são Aprendizes em Contexto

Resumo

A aprendizagem contextual (ICL) — a capacidade de um modelo de inferir e aplicar padrões abstratos a partir de exemplos fornecidos na sua entrada — tem sido amplamente estudada em grandes modelos de linguagem treinados para previsão do próximo token em texto humano. Na verdade, trabalhos anteriores frequentemente atribuem este comportamento emergente a propriedades estatísticas distintivas da linguagem humana. Isto levanta uma questão fundamental: pode a ICL surgir organicamente noutros domínios de sequência, puramente através de treino preditivo em larga escala? Para explorar isto, voltamo-nos para sequências genómicas, um domínio simbólico alternativo rico em estrutura estatística. Especificamente, estudamos o modelo genómico Evo2, treinado predominantemente na previsão do próximo nucleótido (A/T/C/G), numa escala comparável a modelos de linguagem de médio porte. Desenvolvemos uma estrutura experimental controlada que compreende tarefas de raciocínio simbólico instanciadas em formas linguísticas e genómicas, permitindo uma comparação direta da ICL entre modelos genómicos e linguísticos. Os nossos resultados mostram que os modelos genómicos, tal como as suas contrapartes linguísticas, exibem ganhos log-lineares na indução de padrões à medida que o número de demonstrações contextuais aumenta. Tanto quanto sabemos, esta é a primeira evidência de ICL emergente organicamente em sequências genómicas, apoiando a hipótese de que a ICL surge como consequência da modelação preditiva em larga escala sobre dados ricos. Estas descobertas estendem a meta-aprendizagem emergente para além da linguagem, apontando para uma visão unificada e agnóstica à modalidade da aprendizagem contextual.

English

In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.

Preditores de Próximo Token Genômicos são Aprendizes em Contexto

Genomic Next-Token Predictors are In-Context Learners

Resumo

Support