ChatPaper.aiChatPaper

エージェントシステム設計における情報理論的視点

An Information Theoretic Perspective on Agentic System Design

December 25, 2025
著者: Shizhe He, Avanika Narayan, Ishan S. Khare, Scott W. Linderman, Christopher Ré, Dan Biderman
cs.AI

要旨

エージェンシック言語モデル(LM)システムは、「Deep Research」や「Claude Code」のような現代的なアプリケーションを駆動し、コンテキストの制限を克服するためにマルチLMアーキテクチャを活用している。一見多様なこれらのシステムの根底には、反復的に現れるパターンが存在する:より小型の「圧縮器」LM(ローカルで動作可能なものさえもある)が生のコンテキストをコンパクトなテキストに蒸留し、それをより大型の「予測器」LMが消費するのである。その人気にもかかわらず、圧縮器-予測器システムの設計は大部分がアドホックなままであり、圧縮器と予測器の選択が下流の性能をどう形成するかについての指針はほとんどない。実際には、性能向上を圧縮と予測のどちらに帰属させるかは、コストのかかるタスク固有のペアワイズ掃引を必要とする。我々は、これらのエージェンシックシステム設計の課題は、根本的には情報理論的な問題であると主張する。圧縮器LMを雑音のある通信路と見なすことで、コンテキストとその圧縮表現間の相互情報量の単純な推定器を導入し、タスクに依存しない方法で圧縮品質を定量化する。この相互情報量が、特定のタスクに依存せずに、下流性能を強く予測することを示す。情報理論的フレームワークを通じて、5つのデータセットと3つのモデルファミリーにわたる包括的な実証分析を実施する。結果は、より大型の圧縮器が、より正確であるだけでなく、よりトークン効率が高く、トークン当たりより多くの情報ビットを伝達することを明らかにする。例えば、7BパラメータのQwen-2.5圧縮器は、1.5Bパラメータの兄弟モデルと比較して、1.6倍正確で、4.6倍簡潔であり、トークン当たり5.5倍多くの相互情報量ビットを伝達する。データセット全体を通じて、圧縮器をスケーリングすることは予測器をスケーリングするよりも実質的に効果が高く、より大型のオンデバイス圧縮器がより小型のクラウド予測器とペアリングすることを可能にする。Deep Researchシステムに適用すると、これらの原則により、わずか3Bパラメータのローカル圧縮器が、フロンティアLMの精度の99%をAPIコストの26%で回復することが可能となる。
English
Agentic language model (LM) systems power modern applications like "Deep Research" and "Claude Code," and leverage multi-LM architectures to overcome context limitations. Beneath their apparent diversity lies a recurring pattern: smaller "compressor" LMs (that can even run locally) distill raw context into compact text that is then consumed by larger "predictor" LMs. Despite their popularity, the design of compressor-predictor systems remains largely ad hoc, with little guidance on how compressor and predictor choices shape downstream performance. In practice, attributing gains to compression versus prediction requires costly, task-specific pairwise sweeps. We argue that these agentic system design questions are, at root, information-theoretic. Viewing the compressor LM as a noisy channel, we introduce a simple estimator of mutual information between the context and its compression to quantify compression quality in a task-independent way. We show that mutual information strongly predicts downstream performance, independent of any specific task. Through an information-theoretic framework, we perform a comprehensive empirical analysis across five datasets and three model families. Results reveal that larger compressors not only are more accurate, but also more token-efficient, conveying more bits of information per token. A 7B Qwen-2.5 compressor, for instance, is 1.6times more accurate, 4.6times more concise, and conveys 5.5times more bits of mutual information per token than its 1.5B sibling. Across datasets, scaling compressors is substantially more effective than scaling predictors, enabling larger on-device compressors to pair with smaller cloud predictors. Applied to a Deep Research system, these principles enable local compressors as small as 3B parameters to recover 99% of frontier-LM accuracy at 26% of API costs.
PDF60December 31, 2025