La Modellazione del Linguaggio È Compressione

Abstract

È stato a lungo stabilito che i modelli predittivi possono essere trasformati in compressori senza perdita e viceversa. Per coincidenza, negli ultimi anni, la comunità di machine learning si è concentrata sull'addestramento di modelli (linguistici) auto-supervisionati sempre più grandi e potenti. Poiché questi grandi modelli linguistici dimostrano capacità predittive impressionanti, sono ben posizionati per essere compressori efficaci. In questo lavoro, sosteniamo l'idea di considerare il problema della predizione attraverso la lente della compressione e valutiamo le capacità di compressione dei modelli (fondamentali) di grandi dimensioni. Mostriamo che i grandi modelli linguistici sono potenti predittori generici e che la prospettiva della compressione offre nuove intuizioni sulle leggi di scalabilità, la tokenizzazione e l'apprendimento in contesto. Ad esempio, Chinchilla 70B, pur essendo addestrato principalmente su testo, comprime le patch di ImageNet al 43,4% e i campioni di LibriSpeech al 16,4% della loro dimensione originale, superando compressori specifici per dominio come PNG (58,5%) o FLAC (30,3%). Infine, dimostriamo che l'equivalenza predizione-compressione ci consente di utilizzare qualsiasi compressore (come gzip) per costruire un modello generativo condizionale.

English

It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.

La Modellazione del Linguaggio È Compressione

Language Modeling Is Compression

Abstract

Support