Atom-Searcher : Amélioration de la recherche approfondie agentique via une récompense de pensée atomique fine
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
papers.authors: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
papers.abstract
Les grands modèles de langage (LLM) démontrent des capacités remarquables de résolution de problèmes, mais peinent à accomplir des tâches complexes en raison de leur connaissance interne statique. La Génération Augmentée par Récupération (RAG) améliore l'accès à des informations externes, mais reste limitée dans le raisonnement multi-étapes et la recherche stratégique en raison de flux de travail rigides. Les récents progrès dans la recherche approfondie agentique permettent aux LLM de raisonner, rechercher et synthétiser des informations de manière autonome. Cependant, les approches actuelles basées sur l'apprentissage par renforcement (RL) axé sur les résultats rencontrent des problèmes critiques tels que des gradients conflictuels et une rareté des récompenses, limitant les gains de performance et l'efficacité de l'entraînement. Pour y remédier, nous proposons d'abord Atomic Thought, un nouveau paradigme de pensée pour les LLM qui décompose le raisonnement en unités fonctionnelles fines. Ces unités sont supervisées par des Modèles de Récompense de Raisonnement (RRM), qui fournissent des Récompenses Atomic Thought (ATR) pour un guidage fin. Sur cette base, nous proposons Atom-Searcher, un nouveau cadre RL pour la recherche approfondie agentique qui intègre Atomic Thought et ATR. Atom-Searcher utilise un calendrier de récompenses inspiré par un curriculum, priorisant les ATR au niveau du processus en début d'apprentissage et passant progressivement aux récompenses basées sur les résultats, accélérant ainsi la convergence vers des chemins de raisonnement efficaces. Les expériences sur sept benchmarks montrent des améliorations constantes par rapport à l'état de l'art. Les principaux avantages incluent : (1) Atom-Searcher adapte le calcul au moment du test. (2) Atomic Thought fournit des ancres de supervision pour les RRM, reliant les tâches de recherche approfondie et les RRM. (3) Atom-Searcher présente des schémas de raisonnement plus interprétables et proches de ceux des humains.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.