SlimSearcher : Formation d'agents web conscients de l'efficacité d'entraînement via un gating adaptatif des récompenses

Résumé

Les agents de recherche approfondie ont démontré des capacités remarquables dans les tâches complexes de recherche d'information, mais cette puissance s'accompagne d'un coût computationnel élevé. Guidés par des paradigmes d'entraînement centrés sur la précision, les modèles actuels adoptent des stratégies de force brute caractérisées par une dépendance aveugle aux outils et un raisonnement performatif — générant des trajectoires longues et redondantes, loin d'être nécessaires à la résolution de ces tâches, ce qui entraîne des appels d'outils superflus et une consommation excessive de jetons. Pour surmonter ce piège d'efficacité, nous proposons SlimSearcher, un cadre théorique qui repousse la frontière de Pareto entre précision et coût computationnel, à la fois dans l'étape de Supervised Fine-Tuning (SFT) et d'Apprentissage par Renforcement (RL). Dans l'étape SFT, SlimSearcher utilise un filtrage Pareto-efficace pour distiller les trajectoires à la fois réussies et économes, orientant le modèle vers des comportements de recherche intrinsèquement conscients de l'efficacité. Pendant le RL, nous introduisons Adaptive Reward Gating, un mécanisme dynamique de façonnage des récompenses qui évalue l'efficacité relative des outils et des jetons au sein d'une cohorte échantillonnée. En cascade avec un strict seuil de correction, ces métriques adaptatives d'efficacité évitent efficacement le biais de brièveté associé aux pénalités absolues et atténuent le piratage de récompense. Des expériences approfondies sur des benchmarks à long horizon, notamment GAIA, BrowseComp et XBenchDeepSearch, montrent que SlimSearcher réduit le nombre moyen de cycles d'appels d'outils de 17 % à 58 % tout en maintenant ou en améliorant la précision.

English

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.