ChatPaper.aiChatPaper

Treinamento de LLMs sobre Texto Neuralmente Comprimido

Training LLMs over Neurally Compressed Text

April 4, 2024
Autores: Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant
cs.AI

Resumo

Neste artigo, exploramos a ideia de treinar grandes modelos de linguagem (LLMs) sobre texto altamente comprimido. Enquanto os tokenizadores padrão de subpalavras comprimem o texto por um fator pequeno, os compressores neurais de texto podem alcançar taxas de compressão muito maiores. Se fosse possível treinar LLMs diretamente sobre texto neuralmente comprimido, isso traria vantagens em eficiência de treinamento e serviço, além de facilitar o tratamento de trechos longos de texto. O principal obstáculo para esse objetivo é que a compressão forte tende a produzir saídas opacas que não são adequadas para aprendizado. Em particular, descobrimos que o texto comprimido de forma ingênua via Codificação Aritmética não é facilmente aprendível por LLMs. Para superar isso, propomos Janelas de Informação Igual, uma nova técnica de compressão na qual o texto é segmentado em blocos que comprimem para o mesmo comprimento em bits. Usando esse método, demonstramos um aprendizado eficaz sobre texto neuralmente comprimido que melhora com a escala e supera as linhas de base em nível de byte por uma ampla margem em benchmarks de perplexidade e velocidade de inferência. Embora nosso método entregue uma perplexidade pior do que os tokenizadores de subpalavras para modelos treinados com a mesma contagem de parâmetros, ele tem o benefício de comprimentos de sequência mais curtos. Comprimentos de sequência mais curtos exigem menos etapas de geração autoregressiva e reduzem a latência. Por fim, fornecemos uma análise extensa das propriedades que contribuem para a capacidade de aprendizado e oferecemos sugestões concretas sobre como melhorar ainda mais o desempenho de tokenizadores de alta compressão.
English
In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.
PDF233February 7, 2026