La modélisation du langage est une forme de compression.
Language Modeling Is Compression
September 19, 2023
Auteurs: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Résumé
Il est depuis longtemps établi que les modèles prédictifs peuvent être transformés en compresseurs sans perte et vice versa. Par ailleurs, ces dernières années, la communauté de l'apprentissage automatique s'est concentrée sur l'entraînement de modèles (de langage) auto-supervisés de plus en plus grands et puissants. Puisque ces grands modèles de langage présentent des capacités prédictives impressionnantes, ils sont bien placés pour être de puissants compresseurs. Dans ce travail, nous préconisons d'envisager le problème de prédiction à travers le prisme de la compression et évaluons les capacités de compression des grands modèles (fondamentaux). Nous montrons que les grands modèles de langage sont des prédicteurs polyvalents puissants et que la perspective de la compression offre de nouvelles perspectives sur les lois d'échelle, la tokenisation et l'apprentissage en contexte. Par exemple, Chinchilla 70B, bien qu'entraîné principalement sur du texte, compresse les patches d'ImageNet à 43,4 % et les échantillons de LibriSpeech à 16,4 % de leur taille brute, surpassant respectivement des compresseurs spécifiques à un domaine comme PNG (58,5 %) ou FLAC (30,3 %). Enfin, nous montrons que l'équivalence prédiction-compression nous permet d'utiliser n'importe quel compresseur (comme gzip) pour construire un modèle génératif conditionnel.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.