REDSearcher: Uma Estrutura Escalável e Econômica para Agentes de Busca de Longo Horizonte

Resumo

Os modelos de linguagem de grande escala estão em transição de motores de conhecimento de propósito geral para solucionadores de problemas do mundo real, mas a sua otimização para tarefas de busca profunda continua a ser um desafio. O principal gargalo reside na extrema esparsidade de trajetórias de busca de alta qualidade e sinais de recompensa, decorrente da dificuldade de construção escalável de tarefas de longo horizonte e do alto custo de rollouts intensivos em interação que envolvem chamadas a ferramentas externas. Para enfrentar estes desafios, propomos o REDSearcher, um framework unificado que codesenha a síntese de tarefas complexas, o mid-training e o pós-treinamento para otimização escalável de agentes de busca. Especificamente, o REDSearcher introduz as seguintes melhorias: (1) Estruturamos a síntese de tarefas como uma otimização de dupla restrição, onde a dificuldade da tarefa é precisamente governada pela topologia do grafo e dispersão de evidências, permitindo a geração escalável de tarefas complexas e de alta qualidade. (2) Introduzimos consultas aumentadas por ferramentas para incentivar o uso proativo de ferramentas em vez de recuperação passiva. (3) Durante o mid-training, fortalecemos capacidades atômicas centrais - conhecimento, planeamento e chamada de funções - reduzindo substancialmente o custo de recolha de trajetórias de alta qualidade para treino subsequente. (4) Construímos um ambiente simulado local que permite iteração algorítmica rápida e de baixo custo para experiências de aprendizagem por reforço. Em benchmarks de agentes de busca apenas de texto e multimodais, a nossa abordagem atinge desempenho state-of-the-art. Para facilitar futuras pesquisas sobre agentes de busca de longo horizonte, disponibilizaremos 10K trajetórias de busca de texto complexas de alta qualidade, 5K trajetórias multimodais e 1K conjunto de consultas de RL de texto, juntamente com código e checkpoints de modelos.

English

Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.

REDSearcher: Uma Estrutura Escalável e Econômica para Agentes de Busca de Longo Horizonte

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Resumo

Support