ChatPaper.aiChatPaper

Une Perspective Informationnelle sur la Conception des Systèmes Agentiels

An Information Theoretic Perspective on Agentic System Design

December 25, 2025
papers.authors: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI

papers.abstract

Les systèmes d'agents à base de modèles de langage (LM) alimentent des applications modernes comme "Deep Research" et "Claude Code", et exploitent des architectures multi-LM pour surmonter les limitations de contexte. Sous leur diversité apparente se cache un schéma récurrent : des LM "compresseurs" plus petits (pouvant même s'exécuter localement) distillent le contexte brut en un texte compact ensuite consommé par des LM "prédicteurs" plus grands. Malgré leur popularité, la conception des systèmes compresseur-prédicteur reste largement ad hoc, avec peu de directives sur la manière dont les choix du compresseur et du prédicteur influencent les performances en aval. En pratique, attribuer les gains à la compression plutôt qu'à la prédiction nécessite des balayages par paires coûteux et spécifiques à chaque tâche. Nous soutenons que ces questions de conception de systèmes agentiques sont fondamentalement informationnelles. En considérant le LM compresseur comme un canal bruité, nous introduisons un estimateur simple de l'information mutuelle entre le contexte et sa compression pour quantifier la qualité de la compression de manière indépendante de la tâche. Nous montrons que l'information mutuelle prédit fortement les performances en aval, indépendamment de toute tâche spécifique. Via un cadre informationnel, nous menons une analyse empirique exhaustive sur cinq jeux de données et trois familles de modèles. Les résultats révèlent que les compresseurs plus grands sont non seulement plus précis, mais aussi plus efficaces en tokens, transmettant plus de bits d'information par token. Un compresseur Qwen-2.5 7B, par exemple, est 1,6 fois plus précis, 4,6 fois plus concis et transmet 5,5 fois plus de bits d'information mutuelle par token que son homologue 1,5B. Sur l'ensemble des jeux de données, augmenter l'échelle des compresseurs est nettement plus efficace qu'augmenter celle des prédicteurs, permettant à des compresseurs locaux plus grands de s'associer à des prédicteurs cloud plus petits. Appliqués à un système Deep Research, ces principes permettent à des compresseurs locaux d'à peine 3B de paramètres de retrouver 99% de la précision des LM de pointe pour 26% des coûts d'API.
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.
PDF60December 31, 2025