Eine informationstheoretische Perspektive auf das Design agentiver Systeme
An Information Theoretic Perspective on Agentic System Design
December 25, 2025
papers.authors: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI
papers.abstract
Agentische Sprachmodell-Systeme (LM) treiben moderne Anwendungen wie "Deep Research" und "Claude Code" an und nutzen Multi-LM-Architekturen, um Kontextbeschränkungen zu überwinden. Unter ihrer scheinbaren Vielfalt verbirgt sich ein wiederkehrendes Muster: Kleinere "Kompressor"-LMs (die sogar lokal laufen können) destillieren Rohkontext in kompakten Text, der dann von größeren "Prädiktor"-LMs verarbeitet wird. Trotz ihrer Beliebtheit bleibt das Design von Kompressor-Prädiktor-Systemen weitgehend ad hoc, mit wenig Anleitung dazu, wie die Wahl von Kompressor und Prädiktor die nachgelagerte Leistung beeinflusst. In der Praxis erfordert die Zuordnung von Leistungssteigerungen zur Kompression versus Prädiction kostspielige, aufgabenspezifische paarweise Sweeps. Wir argumentieren, dass diese Fragen des agentischen Systemdesigns im Kern informationstheoretischer Natur sind. Indem wir den Kompressor-LM als verrauschten Kanal betrachten, führen wir einen einfachen Schätzer der mutualen Information zwischen Kontext und Kompression ein, um die Kompressionsqualität aufgabenunabhängig zu quantifizieren. Wir zeigen, dass mutuale Information die nachgelagerte Leistung stark vorhersagt, unabhängig von einer spezifischen Aufgabe. Mittels eines informationstheoretischen Frameworks führen wir eine umfassende empirische Analyse über fünf Datensätze und drei Modellfamilien durch. Die Ergebnisse zeigen, dass größere Kompressoren nicht nur genauer, sondern auch token-effizienter sind und mehr Bits an Information pro Token übermitteln. Ein 7B Qwen-2.5-Kompressor ist beispielsweise 1,6-mal genauer, 4,6-mal prägnanter und übermittelt 5,5-mal mehr Bits an mutualer Information pro Token als sein 1,5B-Pendant. Über Datensätze hinweg ist das Skalieren von Kompressoren wesentlich effektiver als das Skalieren von Prädiktoren, was größere On-Device-Kompressoren ermöglicht, die mit kleineren Cloud-Prädiktoren gepaart werden. Angewendet auf ein Deep-Research-System ermöglichen diese Prinzipien lokalen Kompressoren mit nur 3B Parametern, 99 % der Genauigkeit eines Frontier-LMs bei 26 % der API-Kosten zu erreichen.
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.