ChatPaper.aiChatPaper

Uma Perspectiva da Teoria da Informação sobre o Projeto de Sistemas Agênticos

An Information Theoretic Perspective on Agentic System Design

December 25, 2025
Autores: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI

Resumo

Os sistemas de modelos de linguagem (LM) agenticos impulsionam aplicações modernas como "Deep Research" e "Claude Code", e aproveitam arquiteturas multi-LM para superar as limitações de contexto. Por trás de sua aparente diversidade, existe um padrão recorrente: LMs "compressores" menores (que podem até ser executados localmente) destilam o contexto bruto em texto compacto que é então consumido por LMs "preditores" maiores. Apesar de sua popularidade, o projeto de sistemas compressor-preditor permanece largamente ad hoc, com pouca orientação sobre como as escolhas do compressor e do preditor moldam o desempenho final. Na prática, atribuir ganhos à compressão versus predição requer varreduras pareadas dispendiosas e específicas da tarefa. Argumentamos que essas questões de projeto de sistemas agenticos são, em sua essência, informação-teóricas. Enxergando o LM compressor como um canal ruidoso, introduzimos um estimador simples de informação mútua entre o contexto e sua compressão para quantificar a qualidade da compressão de forma independente da tarefa. Mostramos que a informação mútua prevê fortemente o desempenho final, independentemente de qualquer tarefa específica. Por meio de uma estrutura informação-teórica, realizamos uma análise empírica abrangente em cinco conjuntos de dados e três famílias de modelos. Os resultados revelam que compressores maiores não são apenas mais precisos, mas também mais eficientes em tokens, transmitindo mais bits de informação por token. Um compressor Qwen-2.5 de 7B, por exemplo, é 1,6 vezes mais preciso, 4,6 vezes mais conciso e transmite 5,5 vezes mais bits de informação mútua por token do que seu equivalente de 1,5B. Entre os conjuntos de dados, dimensionar compressores é substancialmente mais eficaz do que dimensionar preditores, permitindo que compressores maiores em dispositivos locais pareiem com preditores menores na nuvem. Aplicados a um sistema Deep Research, esses princípios permitem que compressores locais com apenas 3B de parâmetros recuperem 99% da precisão de um LM de fronteira a 26% dos custos de API.
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.
PDF82March 11, 2026