Buscar Mais, Pensar Menos: Repensando a Busca Agente de Longo Horizonte para Eficiência e Generalização

Resumo

Os agentes de pesquisa profunda recentes melhoram principalmente o desempenho através da escalagem da profundidade do raciocínio, mas isso resulta em alto custo de inferência e latência em cenários de busca intensiva. Além disso, a generalização entre ambientes de pesquisa heterogéneos continua a ser um desafio. Neste trabalho, propomos o Search More, Think Less (SMTL), uma estrutura para busca agentiva de longo horizonte que visa simultaneamente eficiência e generalização. O SMTL substitui o raciocínio sequencial pela aquisição paralela de evidências, permitindo uma gestão eficiente do contexto sob orçamentos de contexto restritos. Para suportar a generalização entre tipos de tarefas, introduzimos ainda um pipeline unificado de síntese de dados que constrói tarefas de busca abrangendo tanto cenários de resposta a perguntas determinísticas como cenários de pesquisa abertos, com métricas de avaliação apropriadas para cada tarefa. Treinamos um agente de ponta a ponta usando afinação supervisionada e aprendizagem por reforço, alcançando um desempenho forte e frequentemente estado da arte em várias benchmarks, incluindo BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) e DeepResearch Bench (45,9%). Em comparação com o Mirothinker-v1.0, o SMTL com um máximo de 100 passos de interação reduz o número médio de passos de raciocínio no BrowseComp em 70,7%, enquanto melhora a precisão.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Buscar Mais, Pensar Menos: Repensando a Busca Agente de Longo Horizonte para Eficiência e Generalização

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Resumo

Support