Compression de contexte de bout en bout à grande échelle

Résumé

L'inférence des modèles de langage à long contexte est limitée par la mémoire, car le cache KV croît avec la longueur du contexte. Les techniques récentes de compression du cache KV présentent des lacunes : elles dégradent sensiblement la qualité du modèle ou nécessitent un temps et des ressources de calcul considérables pour compresser une seule requête longue. De plus, de nombreuses méthodes exigent que l'entrée tienne dans la fenêtre de contexte du modèle cible et sont généralement incompatibles avec les moteurs d'inférence de production modernes. Les compresseurs encodeur-décodeur, qui transforment une longue séquence de tokens en une séquence plus courte de représentations latentes consommées par un décodeur, constituent en principe une alternative attrayante. Cependant, les approches existantes ne sont pas compétitives avec la compression du cache KV sur le front du compromis précision-efficacité. Dans ce travail, nous réexaminons la compression encodeur-décodeur et comblons cet écart. Nous commençons par une recherche d'architecture, en pré-entraînant de nombreuses variantes à partir de zéro afin de déterminer la meilleure façon de concevoir et d'entraîner les compresseurs encodeur-décodeur. Guidés par nos résultats, nous pré-entraînons en continu une famille de modèles avec un encodeur de 0,6B et un décodeur de 4B sur plus de 350 milliards de tokens chacun, à des taux de compression de 1:4, 1:8 et 1:16. Nous introduisons les modèles de langage à contexte latent (LCLM), une famille de compresseurs qui améliorent la frontière de Pareto en termes de performance générale, de vitesse de compression et d'utilisation mémoire maximale. Nous démontrons que les LCLM servent de backbones efficaces pour les agents à long horizon, permettant à l'agent de parcourir un long contexte compressé et d'étendre de manière adaptative les segments pertinents à la demande.

English

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.