ChatPaper.aiChatPaper

エージェントシステムのスケーリングに向けた科学

Towards a Science of Scaling Agent Systems

December 9, 2025
著者: Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu
cs.AI

要旨

エージェント、すなわち推論、計画立案、行動が可能な言語モデル(LM)ベースのシステムは、実世界のAIアプリケーションにおける支配的なパラダイムとなりつつある。このような広範な採用にもかかわらず、その性能を決定する原理は未解明のままであり、実務家は原理に基づいた設計選択ではなく、経験則に依存せざるを得ない。我々はこのギャップを埋めるため、エージェントシステムにおける定量的なスケーリング原理を導出する。これを4つの多様なベンチマーク(Finance-Agent、BrowseComp-Plus、PlanCraft、Workbench)で評価した。3つのLLMファミリーで実装された5つの標準的アーキテクチャ(単一、独立、集中型、分散型、ハイブリッド)を用い、標準化されたツールとトークン予算のもと、180の設定にわたる制御評価を実施した。効率性、オーバーヘッド、誤差増幅、冗長性を含む経験的調整指標を用いて予測モデルを導出し、交差検証済み決定係数R^2=0.513を達成した。我々は以下の3つの主要な効果を特定した:(1) ツールと調整のトレードオフ:計算予算が固定された条件下では、ツールを多用するタスクはマルチエージェントのオーバーヘッドによる影響を不釣り合いに被る。(2) 能力飽和:単一エージェントのベースライン性能が約45%を超えると、調整による効果は逓減または負のリターン(beta=-0.408, p<0.001)となる。(3) トポロジー依存的な誤差増幅:独立エージェントは誤差を未検証の伝播により17.2倍に増幅するのに対し、集中型調整では4.4倍に抑制される。集中型調整は金融推論のような並列化可能なタスクで性能を80.9%向上させる一方、分散型調整は動的なウェブナビゲーションで優位(+9.2% vs. +0.2%)を示した。しかし、逐次的な推論タスクでは、全てのマルチエージェント変種が性能を39-70%低下させた。本フレームワークは、保留設定の87%において最適な調整戦略を予測し、測定可能なタスク特性に基づくエージェントのスケーリングに関する予測原理を提供する。
English
Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated R^2=0.513. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.
PDF73December 13, 2025