Modelagem de Linguagem É Compressão
Language Modeling Is Compression
September 19, 2023
Autores: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Resumo
Há muito tempo está estabelecido que modelos preditivos podem ser transformados em compressores sem perdas e vice-versa. Coincidentemente, nos últimos anos, a comunidade de aprendizado de máquina tem se concentrado no treinamento de modelos (de linguagem) auto-supervisionados cada vez maiores e mais poderosos. Como esses grandes modelos de linguagem exibem capacidades preditivas impressionantes, eles estão bem posicionados para serem compressores robustos. Neste trabalho, defendemos a visão do problema de predição através da lente da compressão e avaliamos as capacidades de compressão de grandes modelos (fundacionais). Mostramos que grandes modelos de linguagem são preditores de propósito geral poderosos e que a perspectiva da compressão fornece novos insights sobre leis de escalabilidade, tokenização e aprendizado em contexto. Por exemplo, o Chinchilla 70B, embora treinado principalmente em texto, comprime patches do ImageNet para 43,4% e amostras do LibriSpeech para 16,4% de seu tamanho original, superando compressores específicos de domínio como PNG (58,5%) ou FLAC (30,3%), respectivamente. Por fim, mostramos que a equivalência entre predição e compressão nos permite usar qualquer compressor (como gzip) para construir um modelo generativo condicional.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.