ChatPaper.aiChatPaper

SlimSearcher: 適応的報酬ゲーティングによるトレーニング効率を意識したウェブエージェント

SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

June 5, 2026
著者: Zequn Xie, Junjie Wang, Dan Yang, Jie Feng, Yue Shen, Jian Wang, Jinjie Gu
cs.AI

要旨

深層研究エージェントは複雑な情報探索タスクにおいて顕著な能力を示しているが、その能力には莫大な計算コストが伴う。精度重視の学習パラダイムに駆動された現在のモデルは、盲目的なツール依存とパフォーマティブな推論(タスク解決に不必要な長く冗長な軌跡を生成すること)を特徴とする力任せの戦略を採用しており、非効率なツール呼び出しや過剰なトークン消費を引き起こしている。この効率の罠を克服するため、我々はSlimSearcherを提案する。これは、教師ありファインチューニング(SFT)と強化学習(RL)の両方において、精度と計算コストの間のパレートフロンティアを押し広げる原理的なフレームワークである。SFT段階では、SlimSearcherはパレート効率的フィルタリングを用いて、成功かつ経済的な軌跡を蒸留し、モデルを本質的に効率を意識した探索行動へと導く。RL段階では、サンプリングされたコホート内での相対的なツール効率とトークン効率を評価する動的報酬形成機構であるAdaptive Reward Gating(適応的報酬ゲーティング)を導入する。これらの適応的な効率指標を厳格な正解ゲートとカスケードすることで、本手法は絶対的ペナルティに伴う簡潔さバイアスを効果的に回避し、報酬ハッキングを軽減する。GAIA、BrowseComp、XBenchDeepSearchを含む長期ホライズンベンチマークでの広範な実験により、SlimSearcherは精度を維持または向上させつつ、平均ツール呼び出し回数を17%から58%削減することが示された。
English
Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.