SlimSearcher: Training effizienzbewusster Web-Agenten durch adaptives Belohnungs-Gating

Zusammenfassung

Tiefenrecherche-Agenten haben bemerkenswerte Fähigkeiten bei komplexen informationssuchenden Aufgaben gezeigt, doch diese Leistungsfähigkeit geht mit hohen Rechenkosten einher. Angetrieben von genauigkeitsorientierten Trainingsparadigmen setzen aktuelle Modelle auf Brute-Force-Strategien, die durch blinde Tool-Abhängigkeit und performative Schlussfolgerungen gekennzeichnet sind – sie erzeugen lange, redundante Trajektorien, die zur Lösung dieser Aufgaben keineswegs notwendig sind, was zu verschwenderischen Tool-Aufrufen und übermäßigem Token-Verbrauch führt. Um diese Effizienzfalle zu überwinden, schlagen wir SlimSearcher vor, ein prinzipienbasiertes Framework, das die Pareto-Grenze zwischen Genauigkeit und Rechenkosten sowohl beim überwachten Feintuning (SFT) als auch beim Reinforcement Learning (RL) verschiebt. In der SFT-Phase nutzt SlimSearcher eine Pareto-effiziente Filterung, um sowohl erfolgreiche als auch ökonomische Trajektorien zu destillieren und das Modell zu inhärent effizienzbewusstem Suchverhalten zu führen. Während des RL führen wir Adaptive Reward Gating ein, einen dynamischen Belohnungsformungsmechanismus, der relative Tool- und Token-Effizienz innerhalb einer Stichprobenkohorte bewertet. Durch die Kaskadierung dieser adaptiven Effizienzmetriken mit einem strengen Korrektheits-Gate vermeidet unser Ansatz effektiv die Kürze-Verzerrung, die mit absoluten Strafen verbunden ist, und mildert Belohnungs-Hacking. Umfangreiche Experimente auf langfristigen Benchmarks, darunter GAIA, BrowseComp und XBenchDeepSearch, zeigen, dass SlimSearcher die durchschnittliche Anzahl von Tool-Aufrufrunden um 17%–58% reduziert, während die Genauigkeit beibehalten oder verbessert wird.

English

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.