Training von LLMs über neuronal komprimierten Text
Training LLMs over Neurally Compressed Text
April 4, 2024
Autoren: Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant
cs.AI
Zusammenfassung
In diesem Paper untersuchen wir die Idee, große Sprachmodelle (LLMs) über stark komprimierten Text zu trainieren. Während herkömmliche Subword-Tokenisierer Text nur geringfügig komprimieren, können neuronale Textkompressoren wesentlich höhere Kompressionsraten erreichen. Wenn es möglich wäre, LLMs direkt über neuronal komprimierten Text zu trainieren, würde dies Vorteile in Bezug auf Effizienz beim Training und Bereitstellen sowie eine einfachere Handhabung langer Textabschnitte mit sich bringen. Das Hauptproblem bei diesem Ziel ist, dass starke Kompression dazu neigt, undurchsichtige Ausgaben zu erzeugen, die sich nicht gut zum Lernen eignen. Insbesondere stellen wir fest, dass Text, der naiv über arithmetisches Codieren komprimiert wird, von LLMs nicht leicht erlernbar ist. Um dies zu überwinden, schlagen wir Equal-Info Windows vor, eine neuartige Kompressionstechnik, bei der Text in Blöcke unterteilt wird, die jeweils auf die gleiche Bitlänge komprimiert werden. Unter Verwendung dieser Methode zeigen wir effektives Lernen über neuronal komprimierten Text, das mit zunehmendem Maßstab verbessert und Byte-Level-Baselines bei Perplexität und Inferenzgeschwindigkeits-Benchmarks deutlich übertrifft. Während unsere Methode im Vergleich zu Subword-Tokenisierern für Modelle mit gleicher Parameteranzahl eine schlechtere Perplexität liefert, bietet sie den Vorteil kürzerer Sequenzlängen. Kürzere Sequenzlängen erfordern weniger autoregressive Generierungsschritte und reduzieren die Latenz. Abschließend bieten wir eine umfangreiche Analyse der Eigenschaften, die zur Erlernbarkeit beitragen, und machen konkrete Vorschläge, wie die Leistung von Hochkompressions-Tokenisierern weiter verbessert werden kann.
English
In this paper, we explore the idea of training large language models (LLMs)
over highly compressed text. While standard subword tokenizers compress text by
a small factor, neural text compressors can achieve much higher rates of
compression. If it were possible to train LLMs directly over neurally
compressed text, this would confer advantages in training and serving
efficiency, as well as easier handling of long text spans. The main obstacle to
this goal is that strong compression tends to produce opaque outputs that are
not well-suited for learning. In particular, we find that text na\"ively
compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome
this, we propose Equal-Info Windows, a novel compression technique whereby text
is segmented into blocks that each compress to the same bit length. Using this
method, we demonstrate effective learning over neurally compressed text that
improves with scale, and outperforms byte-level baselines by a wide margin on
perplexity and inference speed benchmarks. While our method delivers worse
perplexity than subword tokenizers for models trained with the same parameter
count, it has the benefit of shorter sequence lengths. Shorter sequence lengths
require fewer autoregressive generation steps, and reduce latency. Finally, we
provide extensive analysis of the properties that contribute to learnability,
and offer concrete suggestions for how to further improve the performance of
high-compression tokenizers.Summary
AI-Generated Summary