Языковое моделирование — это сжатие данных.
Language Modeling Is Compression
September 19, 2023
Авторы: Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness
cs.AI
Аннотация
Давно установлено, что прогностические модели могут быть преобразованы в сжатие данных без потерь и наоборот. В последние годы сообщество машинного обучения сосредоточилось на обучении всё более крупных и мощных моделей с самоконтролем (языковых моделей). Поскольку эти крупные языковые модели демонстрируют впечатляющие прогностические способности, они хорошо подходят для выполнения функций эффективных компрессоров. В данной работе мы предлагаем рассматривать задачу прогнозирования через призму сжатия данных и оцениваем способности крупных (фундаментальных) моделей к сжатию. Мы показываем, что крупные языковые модели являются мощными универсальными прогностическими инструментами, а подход с точки зрения сжатия данных предоставляет новые инсайты в законы масштабирования, токенизацию и обучение в контексте. Например, модель Chinchilla 70B, обученная преимущественно на текстовых данных, сжимает патчи ImageNet до 43,4% и образцы LibriSpeech до 16,4% от их исходного размера, превосходя специализированные компрессоры, такие как PNG (58,5%) или FLAC (30,3%). Наконец, мы показываем, что эквивалентность прогнозирования и сжатия позволяет использовать любой компрессор (например, gzip) для построения условной генеративной модели.
English
It has long been established that predictive models can be transformed into
lossless compressors and vice versa. Incidentally, in recent years, the machine
learning community has focused on training increasingly large and powerful
self-supervised (language) models. Since these large language models exhibit
impressive predictive capabilities, they are well-positioned to be strong
compressors. In this work, we advocate for viewing the prediction problem
through the lens of compression and evaluate the compression capabilities of
large (foundation) models. We show that large language models are powerful
general-purpose predictors and that the compression viewpoint provides novel
insights into scaling laws, tokenization, and in-context learning. For example,
Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to
43.4% and LibriSpeech samples to 16.4% of their raw size, beating
domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use
any compressor (like gzip) to build a conditional generative model.