Atom-Searcher: Aprimorando a Pesquisa Profunda Agente por meio de Recompensa de Pensamento Atômico de Granularidade Fina
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
Autores: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) exibem habilidades notáveis de resolução de problemas, mas enfrentam dificuldades com tarefas complexas devido ao conhecimento interno estático. A Geração Aumentada por Recuperação (RAG) melhora o acesso a informações externas, mas ainda é limitada em raciocínio multi-hop e busca estratégica devido a fluxos de trabalho rígidos. Avanços recentes em pesquisa profunda agentiva capacitam os LLMs a raciocinar, buscar e sintetizar informações de forma autônoma. No entanto, abordagens atuais que dependem de aprendizado por reforço (RL) baseado em resultados enfrentam problemas críticos, como gradientes conflitantes e esparsidade de recompensas, limitando ganhos de desempenho e eficiência de treinamento. Para abordar esses problemas, primeiro propomos o Pensamento Atômico, um novo paradigma de pensamento para LLMs que decompõe o raciocínio em unidades funcionais de granularidade fina. Essas unidades são supervisionadas por Modelos de Recompensa de Raciocínio (RRMs), que fornecem Recompensas de Pensamento Atômico (ATR) para orientação de granularidade fina. Com base nisso, propomos o Atom-Searcher, uma nova estrutura de RL para pesquisa profunda agentiva que integra Pensamento Atômico e ATR. O Atom-Searcher usa um cronograma de recompensas inspirado em currículo, priorizando ATR em nível de processo no início e transicionando para recompensas de resultado, acelerando a convergência em caminhos de raciocínio eficazes. Experimentos em sete benchmarks mostram melhorias consistentes em relação ao estado da arte. As principais vantagens incluem: (1) O Atom-Searcher escala a computação em tempo de teste. (2) O Pensamento Atômico fornece âncoras de supervisão para RRMs, conectando tarefas de pesquisa profunda e RRMs. (3) O Atom-Searcher exibe padrões de raciocínio mais interpretáveis e semelhantes aos humanos.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.