ChatPaper.aiChatPaper

Entrenamiento de LLMs sobre texto comprimido neuronalmente

Training LLMs over Neurally Compressed Text

April 4, 2024
Autores: Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant
cs.AI

Resumen

En este artículo, exploramos la idea de entrenar modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobre texto altamente comprimido. Mientras que los tokenizadores estándar basados en subpalabras comprimen el texto en un factor pequeño, los compresores neuronales de texto pueden lograr tasas de compresión mucho más altas. Si fuera posible entrenar LLMs directamente sobre texto comprimido neuronalmente, esto ofrecería ventajas en la eficiencia del entrenamiento y la inferencia, así como un manejo más sencillo de secuencias de texto largas. El principal obstáculo para este objetivo es que una compresión fuerte tiende a producir salidas opacas que no son adecuadas para el aprendizaje. En particular, encontramos que el texto comprimido de manera ingenua mediante Codificación Aritmética no es fácilmente aprendible por los LLMs. Para superar esto, proponemos Ventanas de Información Igual (Equal-Info Windows), una técnica novedosa de compresión en la que el texto se segmenta en bloques que se comprimen a la misma longitud en bits. Utilizando este método, demostramos un aprendizaje efectivo sobre texto comprimido neuronalmente que mejora con la escala, y supera ampliamente a los baselines a nivel de byte en métricas de perplejidad y velocidad de inferencia. Si bien nuestro método ofrece una perplejidad peor que los tokenizadores de subpalabras para modelos entrenados con el mismo número de parámetros, tiene el beneficio de longitudes de secuencia más cortas. Las secuencias más cortas requieren menos pasos de generación autoregresiva y reducen la latencia. Finalmente, proporcionamos un análisis exhaustivo de las propiedades que contribuyen a la capacidad de aprendizaje y ofrecemos sugerencias concretas para mejorar aún más el rendimiento de los tokenizadores de alta compresión.
English
In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

Summary

AI-Generated Summary

PDF253December 15, 2024