Suddivisione Dinamica per la Modellazione Gerarchica di Sequenze End-to-End
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
Autori: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
Abstract
Nonostante i progressi incredibili nei modelli linguistici (LM) negli ultimi anni, dovuti in gran parte all'abbandono di modelli specializzati progettati per compiti specifici a favore di modelli generali basati su architetture potenti (ad esempio il Transformer) che apprendono tutto dai dati grezzi, passaggi di pre-elaborazione come la tokenizzazione rimangono un ostacolo per veri modelli di base end-to-end. Introduciamo una raccolta di nuove tecniche che abilitano un meccanismo di segmentazione dinamica che apprende automaticamente strategie di segmentazione dipendenti dal contenuto e dal contesto, apprese congiuntamente con il resto del modello. Incorporando ciò in una rete gerarchica esplicita (H-Net), è possibile sostituire la pipeline (implicitamente gerarchica) di tokenizzazione-LM-detokenizzazione con un unico modello appreso completamente end-to-end. Quando le risorse computazionali e i dati sono equivalenti, un H-Net con un livello di gerarchia operante a livello di byte supera un forte modello linguistico Transformer che opera su token BPE. Iterare la gerarchia su più livelli ne aumenta ulteriormente le prestazioni modellando più livelli di astrazione, dimostrando un miglioramento significativo nella scalabilità con i dati e raggiungendo le prestazioni di un Transformer basato su token di dimensioni doppie. Gli H-Net pre-addestrati sull'inglese mostrano una robustezza a livello di carattere significativamente maggiore e apprendono qualitativamente strategie di segmentazione dipendenti dai dati senza euristiche o supervisione esplicita. Infine, il miglioramento dell'H-Net rispetto alle pipeline tokenizzate è ulteriormente amplificato in lingue e modalità con euristiche di tokenizzazione meno efficaci, come il cinese, il codice o le sequenze di DNA (quasi 4 volte l'efficienza dei dati rispetto ai baseline), mostrando il potenziale dei veri modelli end-to-end che apprendono e scalano meglio da dati non elaborati.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.