ChatPaper.aiChatPaper

심층 연구 시스템을 위한 강화 학습 기초: 연구 동향 분석

Reinforcement Learning Foundations for Deep Research Systems: A Survey

September 8, 2025
저자: Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu
cs.AI

초록

복잡한 다단계 작업을 해결하기 위해 추론, 오픈 웹 및 사용자 파일 검색, 도구 사용을 조율하는 에이전트형 AI인 딥 리서치 시스템은 플래너, 코디네이터, 실행자로 구성된 계층적 배치로 나아가고 있습니다. 실제로 전체 스택을 종단 간 학습하는 것은 여전히 비현실적이기 때문에, 대부분의 연구는 검색, 브라우징, 코드와 같은 핵심 도구에 연결된 단일 플래너를 학습합니다. SFT(지도 미세 조정)는 프로토콜 충실도를 제공하지만, 모방 및 노출 편향에 취약하며 환경 피드백을 충분히 활용하지 못합니다. DPO와 같은 선호도 정렬 방법은 스키마와 프록시에 의존적이며, 오프-폴리시 방식이고, 장기적 신용 할당과 다목적 균형 조정에 약합니다. SFT와 DPO의 또 다른 한계는 스키마 설계와 레이블된 비교를 통해 인간이 정의한 결정 지점과 하위 기술에 의존한다는 점입니다. 강화 학습은 폐쇄 루프 및 도구 상호작용 연구와 일치하며, 궤적 수준의 정책을 최적화함으로써 탐색, 복구 행동, 원칙적 신용 할당을 가능하게 하고, 이러한 인간 사전 지식과 평가자 편향에 대한 의존도를 줄입니다. 이 조사는 우리가 아는 한 딥 리서치 시스템의 강화 학습 기초에 전념한 첫 번째 연구입니다. 이는 DeepSeek-R1 이후의 작업을 세 가지 축으로 체계화합니다: (i) 데이터 합성 및 큐레이션; (ii) 안정성, 샘플 효율성, 긴 문맥 처리, 보상 및 신용 설계, 다목적 최적화, 다중 모달 통합을 포함한 에이전트형 리서치를 위한 강화 학습 방법; (iii) 에이전트형 강화 학습 훈련 시스템 및 프레임워크. 또한 에이전트 아키텍처와 조정, 그리고 최근의 QA, VQA, 장문 합성, 도메인 기반 도구 상호작용 작업을 포함한 평가 및 벤치마크를 다룹니다. 우리는 반복되는 패턴을 정제하고, 인프라 병목 현상을 표면화하며, 강화 학습을 통해 견고하고 투명한 딥 리서치 에이전트를 훈련하기 위한 실용적인 지침을 제공합니다.
English
Deep research systems, agentic AI that solve complex, multi-step tasks by coordinating reasoning, search across the open web and user files, and tool use, are moving toward hierarchical deployments with a Planner, Coordinator, and Executors. In practice, training entire stacks end-to-end remains impractical, so most work trains a single planner connected to core tools such as search, browsing, and code. While SFT imparts protocol fidelity, it suffers from imitation and exposure biases and underuses environment feedback. Preference alignment methods such as DPO are schema and proxy-dependent, off-policy, and weak for long-horizon credit assignment and multi-objective trade-offs. A further limitation of SFT and DPO is their reliance on human defined decision points and subskills through schema design and labeled comparisons. Reinforcement learning aligns with closed-loop, tool-interaction research by optimizing trajectory-level policies, enabling exploration, recovery behaviors, and principled credit assignment, and it reduces dependence on such human priors and rater biases. This survey is, to our knowledge, the first dedicated to the RL foundations of deep research systems. It systematizes work after DeepSeek-R1 along three axes: (i) data synthesis and curation; (ii) RL methods for agentic research covering stability, sample efficiency, long context handling, reward and credit design, multi-objective optimization, and multimodal integration; and (iii) agentic RL training systems and frameworks. We also cover agent architecture and coordination, as well as evaluation and benchmarks, including recent QA, VQA, long-form synthesis, and domain-grounded, tool-interaction tasks. We distill recurring patterns, surface infrastructure bottlenecks, and offer practical guidance for training robust, transparent deep research agents with RL.
PDF282September 9, 2025