ChatPaper.aiChatPaper

Atom-Searcher: Verbesserung des agentenbasierten Deep Research durch feinkörnige Belohnung atomarer Gedanken

Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

August 18, 2025
papers.authors: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten zur Problemlösung, haben jedoch Schwierigkeiten mit komplexen Aufgaben aufgrund von statischem internem Wissen. Retrieval-Augmented Generation (RAG) verbessert den Zugriff auf externe Informationen, bleibt aber bei mehrstufigem Denken und strategischer Suche aufgrund starrer Arbeitsabläufe begrenzt. Jüngste Fortschritte im agentenbasierten Deep Research ermöglichen es LLMs, autonom zu denken, zu suchen und Informationen zu synthetisieren. Allerdings stehen aktuelle Ansätze, die auf ergebnisbasiertem Reinforcement Learning (RL) basieren, vor kritischen Problemen wie widersprüchlichen Gradienten und spärlichen Belohnungen, was die Leistungssteigerungen und die Trainings effizienz einschränkt. Um diese Probleme zu lösen, schlagen wir zunächst Atomic Thought vor, ein neuartiges Denkparadigma für LLMs, das das Denken in feinkörnige funktionale Einheiten zerlegt. Diese Einheiten werden von Reasoning Reward Models (RRMs) überwacht, die Atomic Thought Rewards (ATR) für eine feinkörnige Anleitung bereitstellen. Darauf aufbauend schlagen wir Atom-Searcher vor, ein neuartiges RL-Framework für agentenbasiertes Deep Research, das Atomic Thought und ATR integriert. Atom-Searcher verwendet einen lehrplaninspirierten Belohnungsplan, der frühzeitig prozessbasierte ATR priorisiert und zu Ergebnisbelohnungen übergeht, wodurch die Konvergenz auf effektive Denkpfade beschleunigt wird. Experimente auf sieben Benchmarks zeigen durchweg Verbesserungen gegenüber dem Stand der Technik. Zu den wichtigsten Vorteilen gehören: (1) Atom-Searcher skaliert die Berechnung zur Testzeit. (2) Atomic Thought bietet Überwachungsanker für RRMs und verbindet Deep Research-Aufgaben mit RRMs. (3) Atom-Searcher zeigt interpretierbarere, menschenähnliche Denkmuster.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities, but struggle with complex tasks due to static internal knowledge. Retrieval-Augmented Generation (RAG) enhances access to external information, yet remains limited in multi-hop reasoning and strategic search due to rigid workflows. Recent advancements in agentic deep research empower LLMs to autonomously reason, search, and synthesize information. However, current approaches relying on outcome-based reinforcement learning (RL) face critical issues such as conflicting gradients and reward sparsity, limiting performance gains and training efficiency. To address these, we first propose Atomic Thought, a novel LLM thinking paradigm that decomposes reasoning into fine-grained functional units. These units are supervised by Reasoning Reward Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained guidance. Building on this, we propose Atom-Searcher, a novel RL framework for agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher uses a curriculum-inspired reward schedule, prioritizing process-level ATR early and transitioning to outcome rewards, accelerating convergence on effective reasoning paths. Experiments on seven benchmarks show consistent improvements over the state-of-the-art. Key advantages include: (1) Atom-Searcher scales computation at test-time. (2) Atomic Thought provides supervision anchors for RRMs, bridging deep research tasks and RRMs. (3) Atom-Searcher exhibits more interpretable, human-like reasoning patterns.
PDF01August 20, 2025