End-to-end contextcompressie op schaal

Samenvatting

De inferentie van een lang-context taalmodel wordt beperkt door geheugen, aangezien de KV-cache toeneemt met de contextlengte. Recente technieken om de KV-cache te comprimeren schieten tekort: ze verminderen de modelkwaliteit aanzienlijk of vergen aanzienlijke tijd en rekenkracht om een enkele lange prompt te comprimeren. Bovendien vereisen veel methoden dat de invoer binnen het contextvenster van het doelmodel past, en zijn ze over het algemeen incompatibel met moderne productie-inferentie-engines. Encoder-decoder compressoren, die een lange tokenreeks omzetten in een kortere reeks latente embeddings die door een decoder worden verbruikt, zijn in principe een aantrekkelijk alternatief. Echter, bestaande benaderingen zijn niet concurrerend met KV-cachecompressie op de nauwkeurigheid-efficiëntiegrens. In dit werk heroverwegen we encoder-decodercompressie en dichten we deze kloof. We voeren eerst een architectuurzoektocht uit, waarbij we vele varianten vanaf nul voortrainen om te bepalen hoe encoder-decodercompressoren het best ontworpen en getraind kunnen worden. Geleid door onze bevindingen trainen we continu een familie van 0.6B-encoder, 4B-decodermodellen op elk meer dan 350B tokens, bij compressieverhoudingen van 1:4, 1:8 en 1:16. We introduceren Latent Context Language Models (LCLM's), een familie van compressoren die de Pareto-grens verbeteren op het gebied van algemene taakprestatie, compressiesnelheid en piekgeheugengebruik. We tonen aan dat LCLM's dienen als efficiënte ruggengraat voor lange-horizon agents, waarbij de agent een gecomprimeerde lange context kan doorlopen en adaptief relevante segmenten op verzoek kan uitbreiden.

English

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.