Atom-Searcher: Улучшение агентного глубокого исследования с помощью детализированного атомарного вознаграждения за мысли
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
Авторы: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие способности к решению задач, но сталкиваются с трудностями при выполнении сложных заданий из-за статичности внутренних знаний. Метод Retrieval-Augmented Generation (RAG) улучшает доступ к внешней информации, однако остается ограниченным в многошаговом рассуждении и стратегическом поиске из-за жестких рабочих процессов. Последние достижения в области агентного глубокого исследования позволяют LLM автономно рассуждать, искать и синтезировать информацию. Однако современные подходы, основанные на обучении с подкреплением (RL) по результатам, сталкиваются с критическими проблемами, такими как конфликтующие градиенты и разреженность вознаграждений, что ограничивает прирост производительности и эффективность обучения. Для решения этих проблем мы предлагаем Atomic Thought — новую парадигму мышления LLM, которая разбивает рассуждение на мелкозернистые функциональные единицы. Эти единицы контролируются моделями вознаграждения за рассуждение (RRM), которые предоставляют Atomic Thought Rewards (ATR) для детализированного руководства. На основе этого мы предлагаем Atom-Searcher — новый RL-фреймворк для агентного глубокого исследования, который интегрирует Atomic Thought и ATR. Atom-Searcher использует расписание вознаграждений, вдохновленное учебным планом, уделяя приоритетное внимание процессуальным ATR на ранних этапах и переходя к вознаграждениям за результат, что ускоряет сходимость на эффективные пути рассуждения. Эксперименты на семи бенчмарках показывают устойчивое улучшение по сравнению с современными методами. Ключевые преимущества включают: (1) Atom-Searcher масштабирует вычисления во время тестирования. (2) Atomic Thought предоставляет якоря для контроля RRM, связывая задачи глубокого исследования и RRM. (3) Atom-Searcher демонстрирует более интерпретируемые, человекообразные паттерны рассуждения.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.