El Modelado del Lenguaje es Compresión
Language Modeling Is Compression
September 19, 2023
Autores: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Resumen
Desde hace tiempo se ha establecido que los modelos predictivos pueden transformarse en compresores sin pérdida y viceversa. Coincidentemente, en los últimos años, la comunidad de aprendizaje automático se ha centrado en entrenar modelos (de lenguaje) auto-supervisados cada vez más grandes y potentes. Dado que estos grandes modelos de lenguaje exhiben capacidades predictivas impresionantes, están bien posicionados para ser compresores potentes. En este trabajo, abogamos por ver el problema de predicción a través de la lente de la compresión y evaluamos las capacidades de compresión de los modelos grandes (fundacionales). Demostramos que los grandes modelos de lenguaje son predictores de propósito general potentes y que la perspectiva de compresión proporciona nuevas ideas sobre las leyes de escalamiento, la tokenización y el aprendizaje en contexto. Por ejemplo, Chinchilla 70B, aunque entrenado principalmente con texto, comprime parches de ImageNet al 43.4% y muestras de LibriSpeech al 16.4% de su tamaño original, superando a compresores específicos de dominio como PNG (58.5%) o FLAC (30.3%), respectivamente. Finalmente, mostramos que la equivalencia entre predicción y compresión nos permite usar cualquier compresor (como gzip) para construir un modelo generativo condicional.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.