Обучение LLM на нейрокомпрессированном тексте

Аннотация

В данной статье мы исследуем идею обучения больших языковых моделей (LLM) на высококомпрессированных текстах. В то время как стандартные токенизаторы на основе подслов сжимают текст на небольшой коэффициент, нейронные текстовые компрессоры могут достичь гораздо более высоких уровней сжатия. Если бы было возможно обучать LLM напрямую на нейронно сжатых текстах, это принесло бы преимущества в эффективности обучения и обслуживания, а также упростило бы обработку длинных текстовых отрывков. Основным препятствием для достижения этой цели является то, что сильное сжатие обычно приводит к неясным результатам, которые плохо подходят для обучения. В частности, мы обнаружили, что текст, наивно сжатый с использованием арифметического кодирования, не является легко обучаемым для LLM. Для преодоления этого мы предлагаем Equal-Info Windows, новую технику сжатия, при которой текст разбивается на блоки, каждый из которых сжимается до одинаковой длины в битах. Используя этот метод, мы демонстрируем эффективное обучение на нейронно сжатых текстах, которое улучшается с увеличением масштаба и значительно превосходит базовые уровни байтов по показателям перплексии и скорости вывода. Хотя наш метод демонстрирует более высокую перплексию по сравнению с токенизаторами на основе подслов для моделей, обученных с одинаковым количеством параметров, он имеет преимущество в более коротких длинах последовательностей. Более короткие длины последовательностей требуют меньшего количества шагов авторегрессивной генерации и снижают задержку. Наконец, мы предоставляем обширный анализ свойств, способствующих обучаемости, и предлагаем конкретные рекомендации по дальнейшему улучшению производительности токенизаторов с высоким уровнем сжатия.

English

In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

Обучение LLM на нейрокомпрессированном тексте

Training LLMs over Neurally Compressed Text

Аннотация

Support