Entraînement des LLM sur du texte compressé neuronalement
Training LLMs over Neurally Compressed Text
April 4, 2024
Auteurs: Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant
cs.AI
Résumé
Dans cet article, nous explorons l'idée d'entraîner des modèles de langage de grande taille (LLMs) sur du texte hautement compressé. Alors que les tokenizers standards basés sur des sous-mots compressent le texte par un petit facteur, les compresseurs de texte neuronaux peuvent atteindre des taux de compression bien plus élevés. S'il était possible d'entraîner des LLMs directement sur du texte compressé de manière neuronale, cela conférerait des avantages en termes d'efficacité d'entraînement et de déploiement, ainsi qu'une gestion plus aisée des longues séquences textuelles. Le principal obstacle à cet objectif est que la compression forte tend à produire des sorties opaques qui ne se prêtent pas bien à l'apprentissage. En particulier, nous constatons que le texte compressé de manière naïve via le codage arithmétique n'est pas facilement apprenable par les LLMs. Pour surmonter cela, nous proposons Equal-Info Windows, une nouvelle technique de compression où le texte est segmenté en blocs qui se compressent chacun à la même longueur en bits. En utilisant cette méthode, nous démontrons un apprentissage efficace sur du texte compressé de manière neuronale qui s'améliore avec l'échelle, et surpasse largement les modèles de référence au niveau des octes sur les benchmarks de perplexité et de vitesse d'inférence. Bien que notre méthode produise une perplexité plus élevée que les tokenizers basés sur des sous-mots pour des modèles entraînés avec le même nombre de paramètres, elle présente l'avantage de séquences plus courtes. Des séquences plus courtes nécessitent moins d'étapes de génération autoregressive et réduisent la latence. Enfin, nous fournissons une analyse approfondie des propriétés qui contribuent à l'apprenabilité, et proposons des suggestions concrètes pour améliorer davantage les performances des tokenizers à haute compression.
English
In this paper, we explore the idea of training large language models (LLMs)
over highly compressed text. While standard subword tokenizers compress text by
a small factor, neural text compressors can achieve much higher rates of
compression. If it were possible to train LLMs directly over neurally
compressed text, this would confer advantages in training and serving
efficiency, as well as easier handling of long text spans. The main obstacle to
this goal is that strong compression tends to produce opaque outputs that are
not well-suited for learning. In particular, we find that text na\"ively
compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome
this, we propose Equal-Info Windows, a novel compression technique whereby text
is segmented into blocks that each compress to the same bit length. Using this
method, we demonstrate effective learning over neurally compressed text that
improves with scale, and outperforms byte-level baselines by a wide margin on
perplexity and inference speed benchmarks. While our method delivers worse
perplexity than subword tokenizers for models trained with the same parameter
count, it has the benefit of shorter sequence lengths. Shorter sequence lengths
require fewer autoregressive generation steps, and reduce latency. Finally, we
provide extensive analysis of the properties that contribute to learnability,
and offer concrete suggestions for how to further improve the performance of
high-compression tokenizers.Summary
AI-Generated Summary