MergeDNA: Контекстно-зависимое моделирование генома с динамической токенизацией через слияние токенов
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
November 17, 2025
Авторы: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI
Аннотация
Моделирование геномных последовательностей сталкивается с двумя нерешенными проблемами: плотность информации сильно варьируется в разных регионах, при этом отсутствует четко определенная минимальная единица словаря. Опираясь либо на четыре первичных нуклеотида, либо на независимо разработанные ДНК-токенизаторы, существующие подходы с наивным предварительным обучением по моделированию с маскированием часто не способны адаптироваться к varying complexity геномных последовательностей. Используя методы Token Merging, данная работа представляет иерархическую архитектуру, которая совместно оптимизирует динамический геномный токенизатор и латентные трансформеры с контекстно-зависимыми задачами предварительного обучения. Что касается структуры сети, модуль токенизации автоматически объединяет соседние нуклеотиды в слова путем наслоения множества слоев дифференцируемых блоков слияния токенов с ограничениями локального окна, после чего Латентный Кодировщик захватывает глобальный контекст этих объединенных слов с помощью блоков полного внимания. Симметрично используя Латентный Декодер и Локальный Декодер, MergeDNA обучается с двумя задачами предварительного обучения: Реконструкция Объединенных Токенов одновременно обучает модуль динамической токенизации и адаптивно фильтрует важные токены, в то время как Адаптивное Моделирование Маскированных Токенов учится предсказывать эти отфильтрованные токены для захвата информативного содержания. Многочисленные эксперименты показывают, что MergeDNA достигает превосходной производительности на трех популярных ДНК-бенчмарках и нескольких мульти-омиксных задачах при тонкой настройке или zero-shot оценке, превосходя типичные методы токенизации и крупномасштабные ДНК-фундаментальные модели.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.