Segmentação Dinâmica para Modelagem Hierárquica de Sequências de Ponta a Ponta
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
Autores: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
Resumo
Apesar do progresso incrível nos modelos de linguagem (LMs) nos últimos anos, em grande parte resultante da mudança de modelos especializados projetados para tarefas específicas para modelos gerais baseados em arquiteturas poderosas (por exemplo, o Transformer) que aprendem tudo a partir de dados brutos, etapas de pré-processamento, como tokenização, continuam sendo uma barreira para verdadeiros modelos de base de ponta a ponta. Introduzimos uma coleção de novas técnicas que permitem um mecanismo de segmentação dinâmica que aprende automaticamente estratégias de segmentação dependentes do conteúdo e do contexto, aprendidas em conjunto com o restante do modelo. Incorporar isso em uma rede hierárquica explícita (H-Net) permite substituir o pipeline (implicitamente hierárquico) de tokenização-LM-detokenização por um único modelo aprendido completamente de ponta a ponta. Quando equiparados em termos de computação e dados, uma H-Net com um estágio de hierarquia operando no nível de byte supera um forte modelo de linguagem Transformer operando sobre tokens BPE. Iterar a hierarquia para múltiplos estágios aumenta ainda mais seu desempenho ao modelar múltiplos níveis de abstração, demonstrando uma escalabilidade significativamente melhor com os dados e igualando um Transformer baseado em tokens com o dobro de seu tamanho. H-Nets pré-treinadas em inglês mostram uma robustez significativamente maior no nível de caracteres e aprendem qualitativamente estratégias de segmentação dependentes de dados sem heurísticas ou supervisão explícita. Finalmente, a melhoria da H-Net sobre pipelines tokenizados é ainda maior em idiomas e modalidades com heurísticas de tokenização mais fracas, como chinês e código, ou sequências de DNA (quase 4x de melhoria na eficiência de dados em relação às linhas de base), mostrando o potencial de verdadeiros modelos de ponta a ponta que aprendem e escalam melhor a partir de dados não processados.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.