小規模エージェントの戦略オークションによるスケーリング
Scaling Small Agents Through Strategy Auctions
February 2, 2026
著者: Lisa Alazraki, William F. Shen, Yoram Bachrach, Akhil Mathur
cs.AI
要旨
小規模言語モデルは、エージェント型AIにおけるコスト効率の良い有望なアプローチとして注目を集めており、支持者らはエージェントワークフローに十分な能力を有すると主張している。しかし、単純なタスクでは大規模モデルに匹敵する性能を発揮する一方で、タスクの複雑さに応じて性能がどのようにスケールするか、いつ大規模モデルが必要となるか、長期的なワークロードに対して小規模エージェントをどう活用すべきかは不明瞭である。本研究では、深層検索およびコーディングタスクにおいて、小規模エージェントの性能がタスク複雑度に応じてスケールしないことを実証的に示す。さらに、フリーランス市場にヒントを得たエージェントフレームワーク「戦略オークションによるワークロード効率化(SALE)」を提案する。SALEでは、エージェントが簡潔な戦略計画を入札し、体系的コスト価値メカニズムで評価、共有オークションメモリを通じて改善される。これにより、個別のルーターを訓練したり全モデルの実行を完了させたりすることなく、タスク単位のルーティングと継続的な自己改善が可能となる。様々な複雑さの深層検索およびコーディングタスクにおいて、SALEは最大規模エージェントへの依存を53%削減、総コストを35%低減し、最終トレース実行にごく僅かなオーバーヘッドを加えるのみで、最大規模エージェントのpass@1を一貫して上回った。対照的に、タスク記述に依存する従来型ルーターは、最大規模エージェントを下回る性能か、コスト削減に失敗する(あるいはその両方)ことが多く、エージェントワークフローへの不適合性が浮き彫りとなった。これらの結果は、小規模エージェントが複雑なワークロードには不十分である一方、協調的なタスク割り当てとテスト時自己改善を通じて効果的に「スケールアップ」可能であることを示唆する。より広義には、エージェント型AIにおける性能向上は、巨大な単一モデルの開発よりも、異種エージェントを効率的で適応的なエコシステムへ組織化する市場発想の協調メカニズムからもたらされるという、システムレベルの視座を提供する。
English
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.