Training von LLMs über neuronal komprimierten Text

papers.abstract

In diesem Paper untersuchen wir die Idee, große Sprachmodelle (LLMs) über stark komprimierten Text zu trainieren. Während herkömmliche Subword-Tokenisierer Text nur geringfügig komprimieren, können neuronale Textkompressoren wesentlich höhere Kompressionsraten erreichen. Wenn es möglich wäre, LLMs direkt über neuronal komprimierten Text zu trainieren, würde dies Vorteile in Bezug auf Effizienz beim Training und Bereitstellen sowie eine einfachere Handhabung langer Textabschnitte mit sich bringen. Das Hauptproblem bei diesem Ziel ist, dass starke Kompression dazu neigt, undurchsichtige Ausgaben zu erzeugen, die sich nicht gut zum Lernen eignen. Insbesondere stellen wir fest, dass Text, der naiv über arithmetisches Codieren komprimiert wird, von LLMs nicht leicht erlernbar ist. Um dies zu überwinden, schlagen wir Equal-Info Windows vor, eine neuartige Kompressionstechnik, bei der Text in Blöcke unterteilt wird, die jeweils auf die gleiche Bitlänge komprimiert werden. Unter Verwendung dieser Methode zeigen wir effektives Lernen über neuronal komprimierten Text, das mit zunehmendem Maßstab verbessert und Byte-Level-Baselines bei Perplexität und Inferenzgeschwindigkeits-Benchmarks deutlich übertrifft. Während unsere Methode im Vergleich zu Subword-Tokenisierern für Modelle mit gleicher Parameteranzahl eine schlechtere Perplexität liefert, bietet sie den Vorteil kürzerer Sequenzlängen. Kürzere Sequenzlängen erfordern weniger autoregressive Generierungsschritte und reduzieren die Latenz. Abschließend bieten wir eine umfangreiche Analyse der Eigenschaften, die zur Erlernbarkeit beitragen, und machen konkrete Vorschläge, wie die Leistung von Hochkompressions-Tokenisierern weiter verbessert werden kann.

English

In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

Training von LLMs über neuronal komprimierten Text

Training LLMs over Neurally Compressed Text

papers.abstract

Support