ChatPaper.aiChatPaper

コンテキストではなくエージェント能力をスケーリング:大規模ツール空間における効率的な強化学習ファインチューニング

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

March 5, 2026
著者: Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah
cs.AI

要旨

大規模なツールエコシステム上で動作するエージェントシステムは、検証が困難あるいは不可能な監督条件下で、長期的なワークフローの計画と実行を求められる。フロンティアモデルは、スケールと大きなコンテキスト予算によってこれらの課題を緩和するが、小型言語モデル(SLM)は依然として脆いままである。すなわち、ツールの過剰読み込みはコンテキストを飽和させ、実行エラーは時間とともに増幅し、希薄な報酬は学習を制限する。本論文では、SLMが大規模ツール空間環境で効果的に動作することを可能にする強化学習ファインチューニングフレームワーク「ATLAS」を提案する。本手法は、コンテキストの取得方法とアクションの実行方法を学習させるものである。我々のアプローチは2つの主要な貢献をもたらす。第一に、コンテキスト制御と実行構造を学習可能な意思決定として扱い、反復的なツール読み込みとプログラム的なツールオーケストレーションを組み合わせることで、コンテキストの肥大化を抑制し、長期的な軌道を安定させる。第二に、ルーブリックに基づく強化学習ファインバーニングを提案する。これはタスクの成功を構造化されたタスク整合的な基準に分解し、小型の判定モデルを用いたスケーラブルな訓練を可能にする。MCPベンチマークにおける実験では、これらの設計選択が汎用的な強化学習ベースラインを大きく上回る一貫した性能向上をもたらし、40億パラメータのSLMが、はるかに厳しいパラメータとコンテキスト予算のもとでフロンティアエージェントの性能に迫ることを可能にした。
English
Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.
PDF153March 16, 2026