Compressão de Contexto de Ponta a Ponta em Escala

Resumo

A inferência de modelos de linguagem de contexto longo é limitada pela memória, uma vez que o cache KV cresce com o comprimento do contexto. Técnicas recentes para comprimir o cache KV são insuficientes: ou degradam substancialmente a qualidade do modelo ou exigem tempo e computação consideráveis para comprimir um único prompt longo. Além disso, muitos métodos exigem que a entrada caiba dentro da janela de contexto do modelo alvo e são geralmente incompatíveis com mecanismos de inferência de produção modernos. Compressores encoder-decoder, que mapeiam uma longa sequência de tokens para uma sequência mais curta de embeddings latentes consumidos por um decoder, são uma alternativa atraente em princípio. No entanto, as abordagens existentes não são competitivas com a compressão do cache KV na fronteira precisão-eficiência. Neste trabalho, revisamos a compressão encoder-decoder e fechamos essa lacuna. Primeiro, realizamos uma busca de arquitetura, pré-treinando muitas variantes do zero para determinar a melhor forma de projetar e treinar compressores encoder-decoder. Guiados por nossas descobertas, continuamos o pré-treinamento de uma família de modelos com encoder de 0,6B e decoder de 4B em mais de 350B tokens cada, em taxas de compressão de 1:4, 1:8 e 1:16. Apresentamos os Modelos de Linguagem de Contexto Latente (LCLMs), uma família de compressores que melhora a fronteira de Pareto em desempenho geral de tarefas, velocidade de compressão e uso máximo de memória. Demonstramos que os LCLMs servem como backbones eficientes para agentes de longo horizonte, permitindo que o agente examine um contexto longo comprimido e expanda adaptativamente segmentos relevantes sob demanda.

English

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.