La Modellazione del Linguaggio È Compressione
Language Modeling Is Compression
September 19, 2023
Autori: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Abstract
È stato a lungo stabilito che i modelli predittivi possono essere trasformati in compressori senza perdita e viceversa. Per coincidenza, negli ultimi anni, la comunità di machine learning si è concentrata sull'addestramento di modelli (linguistici) auto-supervisionati sempre più grandi e potenti. Poiché questi grandi modelli linguistici dimostrano capacità predittive impressionanti, sono ben posizionati per essere compressori efficaci. In questo lavoro, sosteniamo l'idea di considerare il problema della predizione attraverso la lente della compressione e valutiamo le capacità di compressione dei modelli (fondamentali) di grandi dimensioni. Mostriamo che i grandi modelli linguistici sono potenti predittori generici e che la prospettiva della compressione offre nuove intuizioni sulle leggi di scalabilità, la tokenizzazione e l'apprendimento in contesto. Ad esempio, Chinchilla 70B, pur essendo addestrato principalmente su testo, comprime le patch di ImageNet al 43,4% e i campioni di LibriSpeech al 16,4% della loro dimensione originale, superando compressori specifici per dominio come PNG (58,5%) o FLAC (30,3%). Infine, dimostriamo che l'equivalenza predizione-compressione ci consente di utilizzare qualsiasi compressore (come gzip) per costruire un modello generativo condizionale.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.