Ende-zu-Ende-Kontextkompression in großem Maßstab

Zusammenfassung

Die Inferenz von Sprachmodellen mit langen Kontexten wird durch den Speicher begrenzt, da der KV-Cache mit der Kontextlänge wächst. Neuere Techniken zur Komprimierung des KV-Cache bleiben hinter den Erwartungen zurück: Sie verschlechtern entweder die Modellqualität erheblich oder erfordern beträchtliche Zeit und Rechenleistung, um einen einzigen langen Prompt zu komprimieren. Darüber hinaus setzen viele Methoden voraus, dass die Eingabe in das Kontextfenster des Zielmodells passt, und sind im Allgemeinen nicht mit modernen Produktions-Inferenz-Engines kompatibel. Encoder-Decoder-Kompressoren, die eine lange Token-Sequenz auf eine kürzere Sequenz latenter Einbettungen abbilden, die von einem Decoder verarbeitet werden, sind prinzipiell eine attraktive Alternative. Allerdings sind bestehende Ansätze im Hinblick auf die Genauigkeits-Effizienz-Grenze nicht mit der KV-Cache-Komprimierung konkurrenzfähig. In dieser Arbeit überdenken wir die Encoder-Decoder-Komprimierung und schließen diese Lücke. Zunächst führen wir eine Architektursuche durch, indem wir viele Varianten von Grund auf vortrainieren, um zu ermitteln, wie Encoder-Decoder-Kompressoren am besten entworfen und trainiert werden können. Auf der Grundlage unserer Ergebnisse trainieren wir kontinuierlich eine Familie von Modellen mit 0,6B-Encoder und 4B-Decoder auf jeweils über 350 Mrd. Token mit Kompressionsverhältnissen von 1:4, 1:8 und 1:16 vor. Wir führen Latent Context Language Models (LCLMs) ein, eine Familie von Kompressoren, die die Pareto-Grenze in Bezug auf allgemeine Aufgabenleistung, Kompressionsgeschwindigkeit und Spitzenspeichernutzung verbessern. Wir zeigen, dass LCLMs als effiziente Grundlage für längerfristig agierende Agenten dienen, indem sie dem Agenten ermöglichen, einen komprimierten langen Kontext zu überfliegen und relevanten Abschnitte bei Bedarf adaptiv zu erweitern.

English

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.