AgentCPM-리포트: 개방형 심층 연구를 위한 초안 작성과 심화의 교차 적용
AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research
February 6, 2026
저자: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI
초록
깊이 있는 연구 보고서 생성은 대규모 정보 수집과 통찰력 기반 분석의 종합을 요구하므로, 현재의 언어 모델에게는 상당한 과제로 남아 있습니다. 기존 대부분의 접근법은 계획-작성(plan-then-write) 패러다임을 따르는데, 이 방식의 성능은 초기 개요의 질에 크게 의존합니다. 그러나 포괄적인 개요를 구성하는 작업 자체가 강력한 추론 능력을 요구하기 때문에, 현재의 심층 연구 시스템은 거의 전적으로 폐쇄형 또는 온라인 대형 모델에 의존하는 상황입니다. 이러한 의존성은 실제 배포에 실질적인 장벽을 만들고 사용자 생성 데이터에 대한 보안 및 개인정보 보호 문제를 야기합니다. 본 연구에서는 인간의 작성 과정을 모방한 프레임워크와 80억 파라미터 규모의 심층 연구 에이전트로 구성된 경량이면서도 높은 성능을 지닌 로컬 솔루션인 AgentCPM-Report를 제안합니다. 우리의 프레임워크는 보고서 생성 중에 동적으로 개요를 수정할 수 있게 하는 Writing As Reasoning Policy(WARP)를 사용합니다. 이 정책 하에서 에이전트는 증거 기반 초안 작성(Evidence-Based Drafting)과 추론 주도 심화(Reasoning-Driven Deepening)를 번갈아 수행하며, 정보 수집, 지식 정제 및 반복적 개요 발전을 함께 지원합니다. 소규모 모델에 이러한 능력을 효과적으로 부여하기 위해 콜드 스타트(cold-start), 원자적 기술 강화 학습(atomic skill RL), 전체 파이프라인 강화 학습(holistic pipeline RL)으로 구성된 다단계 에이전트 학습(Multi-Stage Agentic Training) 전략을 도입했습니다. DeepResearch Bench, DeepConsult, DeepResearch Gym에 대한 실험 결과, AgentCPM-Report는 주요 폐쇄형 시스템을 능가하며, 특히 통찰력(Insight) 측면에서 상당한 성능 향상을 보였습니다.
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.