ChatPaper.aiChatPaper

Von Bytes zu Ideen: Sprachmodellierung mit autoregressiven U-Nets

From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

June 17, 2025
Autoren: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI

Zusammenfassung

Tokenisierung legt eine feste Granularität auf den Eingabetext fest und fixiert, wie ein Sprachmodell mit Daten arbeitet und wie weit in die Zukunft es Vorhersagen trifft. Byte-Pair-Encoding (BPE) und ähnliche Verfahren teilen den Text einmal auf, erstellen ein statisches Vokabular und lassen das Modell mit dieser Wahl zurück. Wir lockern diese Starrheit, indem wir ein autoregressives U-Net einführen, das lernt, seine eigenen Tokens während des Trainings zu embedden. Das Netzwerk liest Rohbytes, fasst sie zu Wörtern zusammen, dann zu Wortpaaren und schließlich zu bis zu vier Wörtern, wodurch es eine mehrstufige Sicht auf die Sequenz erhält. In tieferen Stufen muss das Modell weiter in die Zukunft vorhersagen – es antizipiert die nächsten Wörter anstelle des nächsten Bytes –, sodass sich tiefere Stufen auf breitere semantische Muster konzentrieren, während frühere Stufen feine Details verarbeiten. Bei sorgfältiger Abstimmung und Kontrolle der Vorabtrainingsrechenleistung erreichen flache Hierarchien starke BPE-Baselines, und tiefere Hierarchien zeigen einen vielversprechenden Trend. Da die Tokenisierung nun innerhalb des Modells stattfindet, kann dasselbe System Aufgaben auf Zeichenebene bewältigen und Wissen über ressourcenarme Sprachen hinweg übertragen.
English
Tokenization imposes a fixed granularity on the input text, freezing how a language model operates on data and how far in the future it predicts. Byte Pair Encoding (BPE) and similar schemes split text once, build a static vocabulary, and leave the model stuck with that choice. We relax this rigidity by introducing an autoregressive U-Net that learns to embed its own tokens as it trains. The network reads raw bytes, pools them into words, then pairs of words, then up to 4 words, giving it a multi-scale view of the sequence. At deeper stages, the model must predict further into the future -- anticipating the next few words rather than the next byte -- so deeper stages focus on broader semantic patterns while earlier stages handle fine details. When carefully tuning and controlling pretraining compute, shallow hierarchies tie strong BPE baselines, and deeper hierarchies have a promising trend. Because tokenization now lives inside the model, the same system can handle character-level tasks and carry knowledge across low-resource languages.
PDF63June 18, 2025