Una Perspectiva de Teoría de la Información sobre el Diseño de Sistemas Agentes

Resumen

Los sistemas de agentes basados en modelos de lenguaje (LM) impulsan aplicaciones modernas como "Deep Research" y "Claude Code", y aprovechan arquitecturas multi-LM para superar las limitaciones de contexto. Bajo su aparente diversidad subyace un patrón recurrente: LM "compresores" más pequeños (que incluso pueden ejecutarse localmente) destilan el contexto crudo en texto compacto que luego es consumido por LM "predictores" más grandes. A pesar de su popularidad, el diseño de los sistemas compresor-predector sigue siendo en gran medida ad hoc, con poca orientación sobre cómo las elecciones del compresor y del prededor moldean el rendimiento final. En la práctica, atribuir las mejoras a la compresión versus la predicción requiere costosos barridos por pares específicos de cada tarea. Sostenemos que estas cuestiones de diseño de sistemas agentes son, en esencia, información-teóricas. Visualizando el LM compresor como un canal ruidoso, introducimos un estimador simple de la información mutua entre el contexto y su compresión para cuantificar la calidad de la compresión de manera independiente de la tarea. Demostramos que la información mutua predice fuertemente el rendimiento posterior, independientemente de cualquier tarea específica. Mediante un marco información-teórico, realizamos un análisis empírico exhaustivo en cinco conjuntos de datos y tres familias de modelos. Los resultados revelan que los compresores más grandes no solo son más precisos, sino también más eficientes en tokens, transmitiendo más bits de información por token. Un compresor Qwen-2.5 de 7B, por ejemplo, es 1.6 veces más preciso, 4.6 veces más conciso y transmite 5.5 veces más bits de información mutua por token que su homólogo de 1.5B. En todos los conjuntos de datos, escalar los compresores es sustancialmente más efectivo que escalar los predictores, permitiendo que compresores más grandes locales se emparejen con predictores en la nube más pequeños. Aplicados a un sistema de Deep Research, estos principios permiten que compresores locales de apenas 3B parámetros recuperen el 99% de la precisión de un LM de vanguardia con solo el 26% de los costos de API.

English

Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.

Una Perspectiva de Teoría de la Información sobre el Diseño de Sistemas Agentes

An Information Theoretic Perspective on Agentic System Design

Resumen

Support