Een informatie-theoretisch perspectief op het ontwerp van agentische systemen
An Information Theoretic Perspective on Agentic System Design
December 25, 2025
Auteurs: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI
Samenvatting
Agentische taalsysteemmodellen (LM's) vormen de basis van moderne toepassingen zoals "Deep Research" en "Claude Code", en maken gebruik van multi-LM-architecturen om contextbeperkingen te overwinnen. Onder hun schijnbare diversiteit schuilt een terugkerend patroon: kleinere "compressor"-LM's (die zelfs lokaal kunnen draaien) destilleren ruwe context naar compacte tekst die vervolgens wordt verwerkt door grotere "predictor"-LM's. Ondanks hun populariteit blijft het ontwerp van compressor-predictor-systemen grotendeels ad hoc, met weinig richtlijnen over hoe keuzes in compressor en predictor de downstream-prestaties beïnvloeden. In de praktijk vereist het toeschrijven van verbeteringen aan compressie versus voorspelling kostbare, taakspecifieke paarsgewijze evaluaties. Wij stellen dat deze ontwerpvragen voor agentische systemen in wezen informatie-theoretisch zijn. Door de compressor-LM te zien als een ruisachtig kanaal, introduceren we een eenvoudige schatter van wederzijdse informatie tussen de context en de compressie om de compressiekwaliteit op een taakonafhankelijke manier te kwantificeren. We tonen aan dat wederzijdse informatie de downstream-prestaties sterk voorspelt, onafhankelijk van een specifieke taak. Via een informatie-theoretisch kader voeren we een uitgebreide empirische analyse uit over vijf datasets en drie modelfamilies. Resultaten tonen aan dat grotere compressoren niet alleen nauwkeuriger zijn, maar ook token-efficiënter, waarbij ze meer bits informatie per token overdragen. Een 7B Qwen-2.5-compressor is bijvoorbeeld 1,6 keer nauwkeuriger, 4,6 keer beknopter en verzendt 5,5 keer meer bits wederzijdse informatie per token dan zijn 1,5B-tegenhanger. Over datasets heen is het schalen van compressoren aanzienlijk effectiever dan het schalen van predictors, waardoor grotere on-device-compressoren kunnen worden gekoppeld aan kleinere cloud-predictors. Toegepast op een Deep Research-systeem stellen deze principes lokale compressoren met slechts 3B parameters in staat om 99% van de frontier-LM-nauwkeurigheid te bereiken tegen 26% van de API-kosten.
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.