Von Bytes zu Ideen: Sprachmodellierung mit autoregressiven U-Nets
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
June 17, 2025
Autoren: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI
Zusammenfassung
Tokenisierung legt eine feste Granularität auf den Eingabetext fest und fixiert, wie ein Sprachmodell mit Daten arbeitet und wie weit in die Zukunft es Vorhersagen trifft. Byte-Pair-Encoding (BPE) und ähnliche Verfahren teilen den Text einmal auf, erstellen ein statisches Vokabular und lassen das Modell mit dieser Wahl zurück. Wir lockern diese Starrheit, indem wir ein autoregressives U-Net einführen, das lernt, seine eigenen Tokens während des Trainings zu embedden. Das Netzwerk liest Rohbytes, fasst sie zu Wörtern zusammen, dann zu Wortpaaren und schließlich zu bis zu vier Wörtern, wodurch es eine mehrstufige Sicht auf die Sequenz erhält. In tieferen Stufen muss das Modell weiter in die Zukunft vorhersagen – es antizipiert die nächsten Wörter anstelle des nächsten Bytes –, sodass sich tiefere Stufen auf breitere semantische Muster konzentrieren, während frühere Stufen feine Details verarbeiten. Bei sorgfältiger Abstimmung und Kontrolle der Vorabtrainingsrechenleistung erreichen flache Hierarchien starke BPE-Baselines, und tiefere Hierarchien zeigen einen vielversprechenden Trend. Da die Tokenisierung nun innerhalb des Modells stattfindet, kann dasselbe System Aufgaben auf Zeichenebene bewältigen und Wissen über ressourcenarme Sprachen hinweg übertragen.
English
Tokenization imposes a fixed granularity on the input text, freezing how a
language model operates on data and how far in the future it predicts. Byte
Pair Encoding (BPE) and similar schemes split text once, build a static
vocabulary, and leave the model stuck with that choice. We relax this rigidity
by introducing an autoregressive U-Net that learns to embed its own tokens as
it trains. The network reads raw bytes, pools them into words, then pairs of
words, then up to 4 words, giving it a multi-scale view of the sequence. At
deeper stages, the model must predict further into the future -- anticipating
the next few words rather than the next byte -- so deeper stages focus on
broader semantic patterns while earlier stages handle fine details. When
carefully tuning and controlling pretraining compute, shallow hierarchies tie
strong BPE baselines, and deeper hierarchies have a promising trend. Because
tokenization now lives inside the model, the same system can handle
character-level tasks and carry knowledge across low-resource languages.