SlimSearcher: het trainen van efficiëntiebewuste webagenten via adaptieve beloningspoort

Samenvatting

Diepgaande onderzoeksagenten hebben opmerkelijke capaciteiten getoond in complexe informatiezoekopdrachten, maar deze kracht gaat gepaard met hoge computationele kosten. Aangedreven door nauwkeurigheidsgerichte trainingsparadigma's hanteren huidige modellen brute-krachtstrategieën die worden gekenmerkt door blinde toolafhankelijkheid en performatief redeneren – het genereren van lange, redundante trajecten die verre van noodzakelijk zijn voor het oplossen van deze taken, wat leidt tot verspillende tool-aanroepen en overmatig tokenverbruik. Om deze efficiëntieval te overwinnen, stellen we SlimSearcher voor, een principieel raamwerk dat de Pareto-grens tussen nauwkeurigheid en computationele kosten verlegt, zowel bij Supervised Fine-Tuning (SFT) als Reinforcement Learning (RL). In de SFT-fase gebruikt SlimSearcher Pareto-efficiënte filtratie om trajecten te distilleren die zowel succesvol als economisch zijn, waardoor het model wordt gestuurd naar inherent efficiëntiebewuste zoekgedragingen. Tijdens RL introduceren we Adaptive Reward Gating, een dynamisch beloningsvormingsmechanisme dat de relatieve tool- en tokenefficiëntie binnen een gesamplede cohort evalueert. Door deze adaptieve efficiëntiemetrieken te cascaderen met een strikte correctheidspoort, vermijdt onze aanpak effectief de bondigheidsbias die gepaard gaat met absolute straffen en beperkt het beloningshacking. Uitgebreide experimenten op lange-horizon benchmarks, waaronder GAIA, BrowseComp en XBenchDeepSearch, tonen aan dat SlimSearcher het gemiddelde aantal tool-aanroeprondes met 17%-58% vermindert, terwijl de nauwkeurigheid behouden blijft of verbetert.

English

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.