Taalmodeling Is Compressie
Language Modeling Is Compression
September 19, 2023
Auteurs: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Samenvatting
Het is al lang bekend dat voorspellende modellen kunnen worden omgezet in verliesloze compressoren en vice versa. Toevallig heeft de machine learning-gemeenschap zich de afgelopen jaren gericht op het trainen van steeds grotere en krachtigere zelfgesuperviseerde (taal)modellen. Aangezien deze grote taalmodellen indrukwekkende voorspellende capaciteiten vertonen, zijn ze uitstekend gepositioneerd om sterke compressoren te zijn. In dit werk pleiten we ervoor om het voorspellingsprobleem te bekijken door de lens van compressie en evalueren we de compressiecapaciteiten van grote (basis)modellen. We laten zien dat grote taalmodellen krachtige algemene voorspellers zijn en dat het compressieperspectief nieuwe inzichten biedt in schaalwetten, tokenisatie en in-context leren. Zo comprimeert Chinchilla 70B, hoewel voornamelijk getraind op tekst, ImageNet-patches tot 43,4% en LibriSpeech-monsters tot 16,4% van hun ruwe grootte, waarmee het domeinspecifieke compressoren zoals PNG (58,5%) of FLAC (30,3%) verslaat. Tot slot laten we zien dat de equivalentie tussen voorspelling en compressie het mogelijk maakt om elke compressor (zoals gzip) te gebruiken om een conditioneel generatief model te bouwen.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.