Atom-Searcher: Verbetering van Agent-Gestuurd Diepgaand Onderzoek via Fijnmazige Beloning voor Atomair Denken
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
Auteurs: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen opmerkelijke probleemoplossende vermogens, maar worstelen met complexe taken vanwege statische interne kennis. Retrieval-Augmented Generation (RAG) verbetert de toegang tot externe informatie, maar blijft beperkt in multi-hop redenering en strategisch zoeken vanwege rigide workflows. Recente vooruitgang in agent-gebaseerd diep onderzoek stelt LLMs in staat om autonoom te redeneren, te zoeken en informatie te synthetiseren. Huidige benaderingen die vertrouwen op uitkomst-gebaseerde reinforcement learning (RL) kampen echter met kritieke problemen zoals conflicterende gradienten en schaarse beloningen, wat de prestatieverbeteringen en trainings efficiëntie beperkt. Om deze problemen aan te pakken, stellen we eerst Atomic Thought voor, een nieuw LLM-denkkader dat redenering opsplitst in fijnmazige functionele eenheden. Deze eenheden worden begeleid door Reasoning Reward Models (RRMs), die Atomic Thought Rewards (ATR) bieden voor fijnmazige begeleiding. Hierop voortbouwend stellen we Atom-Searcher voor, een nieuw RL-raamwerk voor agent-gebaseerd diep onderzoek dat Atomic Thought en ATR integreert. Atom-Searcher gebruikt een curriculum-geïnspireerd beloningsschema, waarbij procesniveau ATR vroeg wordt geprioriteerd en overgaat naar uitkomstbeloningen, wat de convergentie naar effectieve redeneerpaden versnelt. Experimenten op zeven benchmarks laten consistente verbeteringen zien ten opzichte van de state-of-the-art. Belangrijke voordelen zijn: (1) Atom-Searcher schaalt de rekenkracht tijdens testen. (2) Atomic Thought biedt begeleidingsankers voor RRMs, waardoor diep onderzoekstaken en RRMs worden verbonden. (3) Atom-Searcher vertoont meer interpreteerbare, mensachtige redeneerpatronen.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.