ChatPaper.aiChatPaper

Dynamisches Chunking für End-to-End hierarchische Sequenzmodellierung

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

July 10, 2025
papers.authors: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI

papers.abstract

Trotz der beeindruckenden Fortschritte bei Sprachmodellen (LMs) in den letzten Jahren, die weitgehend auf den Wechsel von spezialisierten Modellen für bestimmte Aufgaben zu allgemeinen Modellen basierend auf leistungsstarken Architekturen (z. B. dem Transformer) zurückzuführen sind, die alles aus Rohdaten lernen, bleiben Vorverarbeitungsschritte wie Tokenisierung eine Barriere für echte end-to-end Basismodelle. Wir stellen eine Sammlung neuer Techniken vor, die einen dynamischen Chunking-Mechanismus ermöglichen, der automatisch inhalts- und kontextabhängige Segmentierungsstrategien lernt, die gemeinsam mit dem Rest des Modells gelernt werden. Die Integration dieser Techniken in ein explizit hierarchisches Netzwerk (H-Net) ermöglicht es, die (implizit hierarchische) Tokenisierung-LM-Detokenisierung-Pipeline durch ein einzelnes Modell zu ersetzen, das vollständig end-to-end gelernt wird. Bei gleicher Rechen- und Datenmenge übertrifft ein H-Net mit einer Hierarchiestufe auf Byte-Ebene ein starkes Transformer-Sprachmodell, das über BPE-Tokens arbeitet. Die Iteration der Hierarchie auf mehrere Stufen steigert die Leistung weiter, indem mehrere Abstraktionsebenen modelliert werden, was eine deutlich bessere Skalierung mit Daten zeigt und einem tokenbasierten Transformer von doppelter Größe entspricht. H-Nets, die auf Englisch vortrainiert wurden, zeigen eine deutlich erhöhte Robustheit auf Zeichenebene und lernen qualitativ sinnvolle datenabhängige Chunking-Strategien ohne Heuristiken oder explizite Überwachung. Schließlich wird die Verbesserung des H-Nets gegenüber tokenisierten Pipelines in Sprachen und Modalitäten mit schwächeren Tokenisierungsheuristiken, wie Chinesisch und Code oder DNA-Sequenzen (fast 4-fache Verbesserung der Dateneffizienz gegenüber Baselines), weiter erhöht, was das Potenzial echter end-to-end Modelle zeigt, die besser aus unverarbeiteten Daten lernen und skalieren.
English
Despite incredible progress in language models (LMs) in recent years, largely resulting from moving away from specialized models designed for specific tasks to general models based on powerful architectures (e.g. the Transformer) that learn everything from raw data, pre-processing steps such as tokenization remain a barrier to true end-to-end foundation models. We introduce a collection of new techniques that enable a dynamic chunking mechanism which automatically learns content -- and context -- dependent segmentation strategies learned jointly with the rest of the model. Incorporating this into an explicit hierarchical network (H-Net) allows replacing the (implicitly hierarchical) tokenization-LM-detokenization pipeline with a single model learned fully end-to-end. When compute- and data- matched, an H-Net with one stage of hierarchy operating at the byte level outperforms a strong Transformer language model operating over BPE tokens. Iterating the hierarchy to multiple stages further increases its performance by modeling multiple levels of abstraction, demonstrating significantly better scaling with data and matching a token-based Transformer of twice its size. H-Nets pretrained on English show significantly increased character-level robustness, and qualitatively learn meaningful data-dependent chunking strategies without any heuristics or explicit supervision. Finally, the H-Net's improvement over tokenized pipelines is further increased in languages and modalities with weaker tokenization heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement in data efficiency over baselines), showing the potential of true end-to-end models that learn and scale better from unprocessed data.
PDF81July 11, 2025