Динамическое разбиение на фрагменты для сквозного иерархического моделирования последовательностей
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
Авторы: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
Аннотация
Несмотря на впечатляющий прогресс в области языковых моделей (LMs) в последние годы, который во многом обусловлен переходом от специализированных моделей, разработанных для конкретных задач, к универсальным моделям, основанным на мощных архитектурах (например, Transformer), которые обучаются всему непосредственно из сырых данных, предварительные этапы обработки, такие как токенизация, остаются препятствием для создания истинно сквозных базовых моделей. Мы представляем набор новых методов, которые позволяют реализовать механизм динамического разбиения на фрагменты, автоматически обучающий стратегии сегментации, зависящие от содержания и контекста, совместно с остальной частью модели. Включение этого механизма в явную иерархическую сеть (H-Net) позволяет заменить (неявно иерархический) конвейер токенизации-LM-детокенизации единой моделью, обучаемой полностью сквозным образом. При сопоставимых вычислительных ресурсах и объеме данных H-Net с одним уровнем иерархии, работающая на уровне байтов, превосходит мощную языковую модель Transformer, работающую с BPE-токенами. Итеративное увеличение иерархии до нескольких уровней дополнительно повышает её производительность за счет моделирования нескольких уровней абстракции, демонстрируя значительно лучшее масштабирование с увеличением объема данных и соответствуя токенизированной модели Transformer вдвое большего размера. H-Net, предварительно обученная на английском языке, демонстрирует значительно повышенную устойчивость на уровне символов и качественно обучается осмысленным стратегиям разбиения на фрагменты, зависящим от данных, без использования эвристик или явного контроля. Наконец, преимущество H-Net перед токенизированными конвейерами ещё более усиливается в языках и модальностях с менее эффективными эвристиками токенизации, таких как китайский язык, программный код или последовательности ДНК (почти 4-кратное улучшение эффективности использования данных по сравнению с базовыми моделями), что демонстрирует потенциал истинно сквозных моделей, которые лучше обучаются и масштабируются на основе необработанных данных.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.