MergeDNA: トークン統合による動的トークン化を備えた文脈対応ゲノムモデリング
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
November 17, 2025
著者: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI
要旨
ゲノム配列のモデリングには、未解決の2つの課題が存在する。すなわち、情報密度が領域によって大きく異なること、および明確に定義された最小語彙単位が存在しないことである。4つの塩基に依存するか、あるいは独立に設計されたDNAトークナイザーに依存する既存の手法は、単純なマスク言語モデル事前学習を用いることが多く、ゲノム配列の多様な複雑性に適応できない場合が多い。本論文では、Token Merging技術を活用し、動的なゲノムトークナイザーと潜在Transformerを、文脈を考慮した事前学習タスクで共同最適化する階層的アーキテクチャを提案する。ネットワーク構造については、トークン化モジュールが、局所ウィンドウ制約を付加した微分可能なトークン統合ブロックを多層に積み重ねることで、隣接する塩基を自動的に単語に分割する。その後、Latent Encoderが全注意ブロックによりこれらの統合された単語の大域的な文脈を捕捉する。Latent DecoderとLocal Decoderを対称的に用いるMergeDNAは、2つの事前学習タスクで学習する。Merged Token Reconstructionは動的トークン化モジュールを同時に訓練し、重要なトークンを適応的にフィルタリングする。一方、Adaptive Masked Token Modelingは、これらのフィルタリングされたトークンを予測することを学習し、情報量の多い内容を捕捉する。大規模な実験により、MergeDNAが3つの主要なDNAベンチマークおよびいくつかのマルチオミクス課題において、ファインチューニングまたはゼロショット評価で優れた性能を達成し、典型的なトークン化手法や大規模DNA基盤モデルを凌駕することが示された。
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.