유전체 차원의 다음 토큰 예측 모델은 인-컨텍스트 학습 능력을 갖춘다
Genomic Next-Token Predictors are In-Context Learners
November 16, 2025
저자: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
cs.AI
초록
컨텍스트 내 학습(ICL)은 모델이 입력에 제공된 예시로부터 추상적인 패턴을 추론하고 적용하는 능력으로, 인간의 텍스트에 대한 다음 토큰 예측을 위해 훈련된 대규모 언어 모델에서 광범위하게 연구되어 왔습니다. 실제로, 기존 연구는 종종 이러한 창발적 행동을 인간 언어의 독특한 통계적 특성으로 귀결시키곤 합니다. 이는 근본적인 질문을 제기합니다: ICL이 다른 시퀀스 영역에서도 순수하게 대규모 예측 훈련을 통해 유기적으로 발생할 수 있을까요?
이를 탐구하기 위해 통계적 구조가 풍부한 대체 기호 영역인 유전체 서열로 주목합니다. 구체적으로, 중형 LLM에 필적하는 규모로 주로 다음 뉴클레오티드(A/T/C/G) 예측에 훈련된 Evo2 유전체 모델을 연구합니다. 우리는 언어적 형태와 유전체 형태 모두로 구현된 기호 추론 과제들로 구성된 통제된 실험 프레임워크를 개발하여, 유전체 모델과 언어 모델 간 ICL을 직접 비교할 수 있게 합니다. 우리의 결과는 유전체 모델이 언어 모델과 마찬가지로 컨텍스트 내 데모의 수가 증가함에 따라 패턴 귀납에서 로그-선형적 이득을 보인다는 것을 나타냅니다. 우리가 아는 한, 이는 유전체 서열에서 유기적으로 창발한 ICL의 첫 번째 증거이며, ICL이 풍부한 데이터에 대한 대규모 예측 모델링의 결과로 발생한다는 가설을 지지합니다. 이러한 발견은 창발적 메타러닝을 언어를 넘어 확장하며, 양식에 구애받지 않는 통합된 컨텍스트 내 학습 관점을 제시합니다.
English
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training?
To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.