SlimSearcher: Treinamento de Agentes Web Conscientes da Eficiência via Gating Adaptativo de Recompensa

Resumo

Agentes de pesquisa profunda demonstraram capacidades notáveis em tarefas complexas de busca de informações, mas esse poder tem um custo computacional elevado. Impulsionados por paradigmas de treinamento focados em precisão, os modelos atuais adotam estratégias de força bruta caracterizadas por dependência cega de ferramentas e raciocínio performático — gerando trajetórias longas e redundantes que estão longe de ser necessárias para resolver essas tarefas, resultando em chamadas de ferramentas desperdiçadas e consumo excessivo de tokens. Para superar essa armadilha de eficiência, propomos o SlimSearcher, uma estrutura teórica que desloca a fronteira de Pareto entre precisão e custo computacional tanto no Ajuste Fino Supervisionado (SFT) quanto no Aprendizado por Reforço (RL). No estágio de SFT, o SlimSearcher emprega filtração eficiente de Pareto para destilar trajetórias que são bem-sucedidas e econômicas, orientando o modelo em direção a comportamentos de busca inerentemente conscientes de eficiência. Durante o RL, introduzimos o Portão Adaptativo de Recompensa, um mecanismo dinâmico de modelagem de recompensa que avalia a eficiência relativa de ferramentas e tokens dentro de uma coorte amostrada. Ao cascatear essas métricas adaptativas de eficiência com um portão rigoroso de correção, nossa abordagem evita efetivamente o viés de brevidade associado a penalidades absolutas e mitiga o hacking de recompensa. Experimentos extensivos em benchmarks de horizonte longo, incluindo GAIA, BrowseComp e XBenchDeepSearch, demonstram que o SlimSearcher reduz as rodadas médias de chamadas de ferramentas em 17%-58%, mantendo ou melhorando a precisão.

English

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.