Entrenamiento de LLMs sobre texto comprimido neuronalmente
Training LLMs over Neurally Compressed Text
April 4, 2024
Autores: Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant
cs.AI
Resumen
En este artículo, exploramos la idea de entrenar modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobre texto altamente comprimido. Mientras que los tokenizadores estándar basados en subpalabras comprimen el texto en un factor pequeño, los compresores neuronales de texto pueden lograr tasas de compresión mucho más altas. Si fuera posible entrenar LLMs directamente sobre texto comprimido neuronalmente, esto ofrecería ventajas en la eficiencia del entrenamiento y la inferencia, así como un manejo más sencillo de secuencias de texto largas. El principal obstáculo para este objetivo es que una compresión fuerte tiende a producir salidas opacas que no son adecuadas para el aprendizaje. En particular, encontramos que el texto comprimido de manera ingenua mediante Codificación Aritmética no es fácilmente aprendible por los LLMs. Para superar esto, proponemos Ventanas de Información Igual (Equal-Info Windows), una técnica novedosa de compresión en la que el texto se segmenta en bloques que se comprimen a la misma longitud en bits. Utilizando este método, demostramos un aprendizaje efectivo sobre texto comprimido neuronalmente que mejora con la escala, y supera ampliamente a los baselines a nivel de byte en métricas de perplejidad y velocidad de inferencia. Si bien nuestro método ofrece una perplejidad peor que los tokenizadores de subpalabras para modelos entrenados con el mismo número de parámetros, tiene el beneficio de longitudes de secuencia más cortas. Las secuencias más cortas requieren menos pasos de generación autoregresiva y reducen la latencia. Finalmente, proporcionamos un análisis exhaustivo de las propiedades que contribuyen a la capacidad de aprendizaje y ofrecemos sugerencias concretas para mejorar aún más el rendimiento de los tokenizadores de alta compresión.
English
In this paper, we explore the idea of training large language models (LLMs)
over highly compressed text. While standard subword tokenizers compress text by
a small factor, neural text compressors can achieve much higher rates of
compression. If it were possible to train LLMs directly over neurally
compressed text, this would confer advantages in training and serving
efficiency, as well as easier handling of long text spans. The main obstacle to
this goal is that strong compression tends to produce opaque outputs that are
not well-suited for learning. In particular, we find that text na\"ively
compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome
this, we propose Equal-Info Windows, a novel compression technique whereby text
is segmented into blocks that each compress to the same bit length. Using this
method, we demonstrate effective learning over neurally compressed text that
improves with scale, and outperforms byte-level baselines by a wide margin on
perplexity and inference speed benchmarks. While our method delivers worse
perplexity than subword tokenizers for models trained with the same parameter
count, it has the benefit of shorter sequence lengths. Shorter sequence lengths
require fewer autoregressive generation steps, and reduce latency. Finally, we
provide extensive analysis of the properties that contribute to learnability,
and offer concrete suggestions for how to further improve the performance of
high-compression tokenizers.Summary
AI-Generated Summary