Compresión de Contexto de Extremo a Extremo a Gran Escala

Resumen

La inferencia de modelos de lenguaje de contexto largo está limitada por la memoria, ya que la caché KV crece con la longitud del contexto. Las técnicas recientes para comprimir la caché KV se quedan cortas: o bien degradan sustancialmente la calidad del modelo, o requieren un tiempo y cómputo considerables para comprimir una sola indicación larga. Además, muchos métodos exigen que la entrada quepa dentro de la ventana de contexto del modelo objetivo y, en general, son incompatibles con los motores de inferencia de producción modernos. Los compresores codificador-decodificador, que asignan una larga secuencia de tokens a una secuencia más corta de incrustaciones latentes consumidas por un decodificador, son una alternativa atractiva en principio. Sin embargo, los enfoques existentes no son competitivos con la compresión de la caché KV en la frontera precisión-eficiencia. En este trabajo, retomamos la compresión codificador-decodificador y cerramos esta brecha. Primero realizamos una búsqueda de arquitectura, preentrenando muchas variantes desde cero para determinar la mejor manera de diseñar y entrenar compresores codificador-decodificador. Guiados por nuestros hallazgos, preentrenamos continuamente una familia de modelos de codificador de 0.6B y decodificador de 4B en más de 350 mil millones de tokens cada uno, con tasas de compresión de 1:4, 1:8 y 1:16. Introducimos los Modelos de Lenguaje de Contexto Latente (LCLMs), una familia de compresores que mejoran la frontera de Pareto en rendimiento de tareas generales, velocidad de compresión y uso máximo de memoria. Demostramos que los LCLMs sirven como backbones eficientes para agentes de horizonte largo, permitiendo que el agente ojee un contexto largo comprimido y expanda adaptativamente segmentos relevantes bajo demanda.

English

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.