ChatPaper.aiChatPaper

Fundamentos de Aprendizado por Reforço para Sistemas de Pesquisa Profunda: Uma Revisão

Reinforcement Learning Foundations for Deep Research Systems: A Survey

September 8, 2025
Autores: Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu
cs.AI

Resumo

Sistemas de pesquisa profunda, IA agentiva que resolve tarefas complexas e de múltiplas etapas coordenando raciocínio, busca na web aberta e arquivos do usuário, e uso de ferramentas, estão evoluindo para implantações hierárquicas com um Planejador, Coordenador e Executores. Na prática, treinar pilhas inteiras de ponta a ponta ainda é impraticável, então a maioria dos trabalhos treina um único planejador conectado a ferramentas essenciais como busca, navegação e código. Embora o SFT (Supervised Fine-Tuning) garanta fidelidade ao protocolo, ele sofre com vieses de imitação e exposição e subutiliza o feedback do ambiente. Métodos de alinhamento de preferências, como o DPO (Direct Preference Optimization), dependem de esquemas e proxies, são off-policy e fracos para atribuição de crédito de longo prazo e trade-offs multiobjetivo. Uma limitação adicional do SFT e do DPO é sua dependência de pontos de decisão e sub-habilidades definidos por humanos por meio de design de esquemas e comparações rotuladas. O aprendizado por reforço se alinha com pesquisas de interação com ferramentas em loop fechado, otimizando políticas em nível de trajetória, permitindo exploração, comportamentos de recuperação e atribuição de crédito fundamentada, além de reduzir a dependência de tais prioridades humanas e vieses de avaliação. Este estudo é, até onde sabemos, o primeiro dedicado aos fundamentos de RL (Reinforcement Learning) para sistemas de pesquisa profunda. Ele sistematiza trabalhos após o DeepSeek-R1 ao longo de três eixos: (i) síntese e curadoria de dados; (ii) métodos de RL para pesquisa agentiva, cobrindo estabilidade, eficiência amostral, manipulação de contexto longo, design de recompensa e crédito, otimização multiobjetivo e integração multimodal; e (iii) sistemas e frameworks de treinamento de RL agentivo. Também abordamos arquitetura e coordenação de agentes, além de avaliação e benchmarks, incluindo tarefas recentes de QA (Question Answering), VQA (Visual Question Answering), síntese de longa duração e interação com ferramentas baseadas em domínio. Destilamos padrões recorrentes, identificamos gargalos de infraestrutura e oferecemos orientações práticas para treinar agentes de pesquisa profunda robustos e transparentes com RL.
English
Deep research systems, agentic AI that solve complex, multi-step tasks by coordinating reasoning, search across the open web and user files, and tool use, are moving toward hierarchical deployments with a Planner, Coordinator, and Executors. In practice, training entire stacks end-to-end remains impractical, so most work trains a single planner connected to core tools such as search, browsing, and code. While SFT imparts protocol fidelity, it suffers from imitation and exposure biases and underuses environment feedback. Preference alignment methods such as DPO are schema and proxy-dependent, off-policy, and weak for long-horizon credit assignment and multi-objective trade-offs. A further limitation of SFT and DPO is their reliance on human defined decision points and subskills through schema design and labeled comparisons. Reinforcement learning aligns with closed-loop, tool-interaction research by optimizing trajectory-level policies, enabling exploration, recovery behaviors, and principled credit assignment, and it reduces dependence on such human priors and rater biases. This survey is, to our knowledge, the first dedicated to the RL foundations of deep research systems. It systematizes work after DeepSeek-R1 along three axes: (i) data synthesis and curation; (ii) RL methods for agentic research covering stability, sample efficiency, long context handling, reward and credit design, multi-objective optimization, and multimodal integration; and (iii) agentic RL training systems and frameworks. We also cover agent architecture and coordination, as well as evaluation and benchmarks, including recent QA, VQA, long-form synthesis, and domain-grounded, tool-interaction tasks. We distill recurring patterns, surface infrastructure bottlenecks, and offer practical guidance for training robust, transparent deep research agents with RL.
PDF292September 9, 2025