ChatPaper.aiChatPaper

Atom-Searcher: Potenziamento della Ricerca Profonda Agente tramite Ricompensa del Pensiero Atomico a Grana Fine

Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

August 18, 2025
Autori: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI

Abstract

I grandi modelli linguistici (LLM) dimostrano notevoli capacità di risoluzione dei problemi, ma incontrano difficoltà con compiti complessi a causa della conoscenza interna statica. La Generazione Aumentata dal Recupero (RAG) migliora l'accesso alle informazioni esterne, ma rimane limitata nel ragionamento multi-hop e nella ricerca strategica a causa di flussi di lavoro rigidi. I recenti progressi nella ricerca profonda agentica potenziano gli LLM a ragionare, cercare e sintetizzare informazioni in modo autonomo. Tuttavia, gli approcci attuali che si basano sull'apprendimento per rinforzo (RL) basato sui risultati affrontano problemi critici come gradienti conflittuali e scarsità di ricompense, limitando i guadagni di prestazioni e l'efficienza dell'addestramento. Per affrontare questi problemi, proponiamo innanzitutto Atomic Thought, un nuovo paradigma di pensiero per LLM che scompone il ragionamento in unità funzionali granulari. Queste unità sono supervisionate da Modelli di Ricompensa per il Ragionamento (RRM), che forniscono Ricompense Atomic Thought (ATR) per una guida granulare. Su questa base, proponiamo Atom-Searcher, un nuovo framework RL per la ricerca profonda agentica che integra Atomic Thought e ATR. Atom-Searcher utilizza un programma di ricompense ispirato al curriculum, dando priorità alle ATR a livello di processo all'inizio e passando alle ricompense basate sui risultati, accelerando la convergenza su percorsi di ragionamento efficaci. Esperimenti su sette benchmark mostrano miglioramenti consistenti rispetto allo stato dell'arte. I vantaggi chiave includono: (1) Atom-Searcher scala il calcolo al momento del test. (2) Atomic Thought fornisce ancore di supervisione per gli RRM, collegando compiti di ricerca profonda e RRM. (3) Atom-Searcher mostra modelli di ragionamento più interpretabili e simili a quelli umani.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities, but struggle with complex tasks due to static internal knowledge. Retrieval-Augmented Generation (RAG) enhances access to external information, yet remains limited in multi-hop reasoning and strategic search due to rigid workflows. Recent advancements in agentic deep research empower LLMs to autonomously reason, search, and synthesize information. However, current approaches relying on outcome-based reinforcement learning (RL) face critical issues such as conflicting gradients and reward sparsity, limiting performance gains and training efficiency. To address these, we first propose Atomic Thought, a novel LLM thinking paradigm that decomposes reasoning into fine-grained functional units. These units are supervised by Reasoning Reward Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained guidance. Building on this, we propose Atom-Searcher, a novel RL framework for agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher uses a curriculum-inspired reward schedule, prioritizing process-level ATR early and transitioning to outcome rewards, accelerating convergence on effective reasoning paths. Experiments on seven benchmarks show consistent improvements over the state-of-the-art. Key advantages include: (1) Atom-Searcher scales computation at test-time. (2) Atomic Thought provides supervision anchors for RRMs, bridging deep research tasks and RRMs. (3) Atom-Searcher exhibits more interpretable, human-like reasoning patterns.
PDF52August 20, 2025