Atom-Searcher: Mejorando la Investigación Profunda Agéntica mediante Recompensas de Pensamiento Atómico de Granularidad Fina
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
August 18, 2025
Autores: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) exhiben habilidades notables para resolver problemas, pero tienen dificultades con tareas complejas debido a su conocimiento interno estático. La Generación Aumentada por Recuperación (RAG) mejora el acceso a información externa, pero sigue siendo limitada en razonamiento de múltiples pasos y búsqueda estratégica debido a flujos de trabajo rígidos. Avances recientes en investigación profunda agentiva empoderan a los LLMs para razonar, buscar y sintetizar información de manera autónoma. Sin embargo, los enfoques actuales que dependen del aprendizaje por refuerzo (RL) basado en resultados enfrentan problemas críticos como gradientes conflictivos y escasez de recompensas, limitando las mejoras de rendimiento y la eficiencia del entrenamiento. Para abordar esto, primero proponemos Pensamiento Atómico, un nuevo paradigma de pensamiento para LLMs que descompone el razonamiento en unidades funcionales de grano fino. Estas unidades son supervisadas por Modelos de Recompensa de Razonamiento (RRMs), que proporcionan Recompensas de Pensamiento Atómico (ATR) para una guía detallada. Sobre esta base, proponemos Atom-Searcher, un nuevo marco de RL para investigación profunda agentiva que integra Pensamiento Atómico y ATR. Atom-Searcher utiliza un cronograma de recompensas inspirado en un currículo, priorizando ATR a nivel de proceso al principio y transicionando a recompensas de resultados, acelerando la convergencia en rutas de razonamiento efectivas. Los experimentos en siete benchmarks muestran mejoras consistentes sobre el estado del arte. Las ventajas clave incluyen: (1) Atom-Searcher escala el cómputo en tiempo de prueba. (2) Pensamiento Atómico proporciona anclajes de supervisión para RRMs, conectando tareas de investigación profunda y RRMs. (3) Atom-Searcher exhibe patrones de razonamiento más interpretables y similares a los humanos.
English
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.