Una Prospettiva Teorica dell'Informazione sulla Progettazione di Sistemi Agenti

Abstract

I sistemi di modelli linguistici (LM) agentici alimentano applicazioni moderne come "Deep Research" e "Claude Code" e sfruttano architetture multi-LM per superare i limiti del contesto. Al di sotto della loro apparente diversità si cela uno schema ricorrente: LM "compressori" più piccoli (che possono anche essere eseguiti localmente) distillano il contesto grezzo in un testo compatto che viene poi elaborato da LM "predittori" più grandi. Nonostante la loro popolarità, la progettazione di sistemi compressore-predittore rimane in gran parte ad hoc, con poche linee guida su come le scelte del compressore e del predittore influenzino le prestazioni finali. Nella pratica, attribuire i miglioramenti alla compressione rispetto alla predizione richiede costose analisi a coppie specifiche per task. Sosteniamo che queste questioni di progettazione di sistemi agentici siano, in sostanza, di natura teoria dell'informazione. Considerando il LM compressore come un canale rumoroso, introduciamo un semplice stimatore dell'informazione mutua tra il contesto e la sua compressione per quantificare la qualità della compressione in modo indipendente dal task. Dimostriamo che l'informazione mutua predice fortemente le prestazioni finali, indipendentemente da qualsiasi task specifico. Attraverso un quadro teorico dell'informazione, eseguiamo un'analisi empirica completa su cinque dataset e tre famiglie di modelli. I risultati rivelano che i compressori più grandi non solo sono più accurati, ma anche più efficienti in termini di token, trasmettendo più bit di informazione per token. Un compressore Qwen-2.5 da 7B, ad esempio, è 1,6 volte più accurato, 4,6 volte più conciso e trasmette 5,5 volte più bit di informazione mutua per token rispetto al suo equivalente da 1,5B. Attraverso i dataset, il ridimensionamento dei compressori è sostanzialmente più efficace del ridimensionamento dei predittori, consentendo a compressori più grandi on-device di abbinarsi a predittori cloud più piccoli. Applicati a un sistema Deep Research, questi principi consentono a compressori locali di dimensioni fino a 3B di parametri di recuperare il 99% dell'accuratezza dei LM all'avanguardia al 26% dei costi API.

English

Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.

Una Prospettiva Teorica dell'Informazione sulla Progettazione di Sistemi Agenti

An Information Theoretic Perspective on Agentic System Design

Abstract

Support