SlimSearcher: Entrenamiento de Agentes Web Conscientes de la Eficiencia mediante Compuerta de Recompensa Adaptativa

Resumen

Los agentes de investigación profunda han demostrado capacidades notables en tareas complejas de búsqueda de información, pero este poder conlleva un elevado coste computacional. Impulsados por paradigmas de entrenamiento centrados en la precisión, los modelos actuales adoptan estrategias de fuerza bruta caracterizadas por una dependencia ciega de las herramientas y un razonamiento performativo, generando trayectorias largas y redundantes que distan de ser necesarias para resolver estas tareas, lo que provoca llamadas a herramientas ineficientes y un consumo excesivo de tokens. Para superar esta trampa de eficiencia, proponemos SlimSearcher, un marco de trabajo basado en principios que desplaza la frontera de Pareto entre precisión y coste computacional tanto en el Ajuste Fino Supervisado (SFT) como en el Aprendizaje por Refuerzo (RL). En la etapa de SFT, SlimSearcher emplea un filtrado eficiente de Pareto para destilar trayectorias que sean tanto exitosas como económicas, guiando al modelo hacia comportamientos de búsqueda inherentemente conscientes de la eficiencia. Durante el RL, introducimos la Compuerta Adaptativa de Recompensa, un mecanismo dinámico de modelado de recompensas que evalúa la eficiencia relativa de herramientas y tokens dentro de una cohorte muestreada. Al encadenar estas métricas adaptativas de eficiencia con una compuerta estricta de corrección, nuestro enfoque evita eficazmente el sesgo de brevedad asociado con las penalizaciones absolutas y mitiga la manipulación de recompensas. Experimentos exhaustivos en puntos de referencia de horizonte largo, incluidos GAIA, BrowseComp y XBenchDeepSearch, demuestran que SlimSearcher reduce las rondas promedio de llamadas a herramientas entre un 17 % y un 58 %, manteniendo o mejorando la precisión.

English

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.