La modélisation du langage est une forme de compression.

papers.abstract

Il est depuis longtemps établi que les modèles prédictifs peuvent être transformés en compresseurs sans perte et vice versa. Par ailleurs, ces dernières années, la communauté de l'apprentissage automatique s'est concentrée sur l'entraînement de modèles (de langage) auto-supervisés de plus en plus grands et puissants. Puisque ces grands modèles de langage présentent des capacités prédictives impressionnantes, ils sont bien placés pour être de puissants compresseurs. Dans ce travail, nous préconisons d'envisager le problème de prédiction à travers le prisme de la compression et évaluons les capacités de compression des grands modèles (fondamentaux). Nous montrons que les grands modèles de langage sont des prédicteurs polyvalents puissants et que la perspective de la compression offre de nouvelles perspectives sur les lois d'échelle, la tokenisation et l'apprentissage en contexte. Par exemple, Chinchilla 70B, bien qu'entraîné principalement sur du texte, compresse les patches d'ImageNet à 43,4 % et les échantillons de LibriSpeech à 16,4 % de leur taille brute, surpassant respectivement des compresseurs spécifiques à un domaine comme PNG (58,5 %) ou FLAC (30,3 %). Enfin, nous montrons que l'équivalence prédiction-compression nous permet d'utiliser n'importe quel compresseur (comme gzip) pour construire un modèle génératif conditionnel.

English

It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.

La modélisation du langage est une forme de compression.

Language Modeling Is Compression

papers.abstract

Support