MergeDNA: 토큰 병합을 통한 동적 토기화 기반 컨텍스트 인식 유전체 모델링
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
November 17, 2025
저자: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI
초록
유전체 서열 모델링은 두 가지 해결되지 않은 과제에 직면해 있습니다: 정보 밀도가 영역마다 크게 다르며, 명확히 정의된 최소 어휘 단위가 존재하지 않는다는 점입니다. 네 가지 기본 염기나 독립적으로 설계된 DNA 토크나이저에 의존하는 기존 접근법들은 단순한 마스크 언어 모델링 사전 훈련을 통해 유전체 서열의 다양한 복잡성을 따라잡지 못하는 경우가 많습니다. 본 논문은 Token Merging 기법을 활용하여, 동적 유전체 토크나이저와 잠재 Transformer를 컨텍스트 인식 사전 훈련 과제와 함께 공동 최적화하는 계층적 아키텍처를 제안합니다. 네트워크 구조 측면에서, 토큰화 모듈은 지역-윈도우 제약을 가진 미분 가능한 토큰 병합 블록을 여러 층으로 쌓아 인접한 염기를 단어로 자동 분할합니다. 이후 잠재 인코더는 전체-어텐션 블록을 통해 이러한 병합된 단어들의 전역 컨텍스트를 포착합니다. MergeDNA는 잠재 디코더와 지역 디코더를 대칭적으로 사용하며 두 가지 사전 훈련 과제로 학습합니다: 병합 토큰 재구성은 동적 토큰화 모듈을 동시에 훈련시키고 중요한 토큰을 적응적으로 필터링하는 반면, 적응형 마스크 토큰 모델링은 이러한 필터링된 토큰을 예측하여 정보성이 높은 내용을 포착하는 방법을 학습합니다. 광범위한 실험을 통해 MergeDNA가 세 가지 주요 DNA 벤치마크와 여러 멀티오믹스 과제에서 미세 조정 또는 제로샷 평가를 수행할 때 일반적인 토큰화 방법과 대규모 DNA 파운데이션 모델을 능가하는 우수한 성능을 달성함을 입증했습니다.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.