Atom-Searcher: Verbesserung des agentenbasierten Deep Research durch feinkörnige Belohnung atomarer Gedanken
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
papers.authors: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten zur Problemlösung,
haben jedoch Schwierigkeiten mit komplexen Aufgaben aufgrund von statischem internem Wissen.
Retrieval-Augmented Generation (RAG) verbessert den Zugriff auf externe Informationen,
bleibt aber bei mehrstufigem Denken und strategischer Suche aufgrund starrer
Arbeitsabläufe begrenzt. Jüngste Fortschritte im agentenbasierten Deep Research ermöglichen es LLMs,
autonom zu denken, zu suchen und Informationen zu synthetisieren. Allerdings stehen aktuelle
Ansätze, die auf ergebnisbasiertem Reinforcement Learning (RL) basieren, vor kritischen
Problemen wie widersprüchlichen Gradienten und spärlichen Belohnungen, was die Leistungssteigerungen
und die Trainings effizienz einschränkt. Um diese Probleme zu lösen, schlagen wir zunächst Atomic
Thought vor, ein neuartiges Denkparadigma für LLMs, das das Denken in feinkörnige
funktionale Einheiten zerlegt. Diese Einheiten werden von Reasoning Reward Models (RRMs) überwacht,
die Atomic Thought Rewards (ATR) für eine feinkörnige Anleitung bereitstellen. Darauf aufbauend
schlagen wir Atom-Searcher vor, ein neuartiges RL-Framework für agentenbasiertes Deep Research,
das Atomic Thought und ATR integriert. Atom-Searcher verwendet einen lehrplaninspirierten Belohnungsplan,
der frühzeitig prozessbasierte ATR priorisiert und zu Ergebnisbelohnungen übergeht, wodurch die Konvergenz
auf effektive Denkpfade beschleunigt wird. Experimente auf sieben Benchmarks zeigen durchweg
Verbesserungen gegenüber dem Stand der Technik. Zu den wichtigsten Vorteilen gehören: (1)
Atom-Searcher skaliert die Berechnung zur Testzeit. (2) Atomic Thought bietet
Überwachungsanker für RRMs und verbindet Deep Research-Aufgaben mit RRMs. (3)
Atom-Searcher zeigt interpretierbarere, menschenähnliche Denkmuster.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.