ChatPaper.aiChatPaper

**AgentCPM-Report: オープンエンドな深層研究のためのドラフト作成と深化のインタリーブ手法**

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

February 6, 2026
著者: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI

要旨

深い調査報告書の生成には、大規模な情報収集と洞察に基づく分析の統合が必要であり、現在の言語モデルにとって大きな課題となっている。既存の手法の多くは「計画してから執筆する」パラダイムに従っており、その性能は初期アウトラインの質に大きく依存する。しかし、包括的なアウトラインの構築自体に高度な推論能力が要求されるため、現在の深い調査システムはほぼ独占的にクローズドソースまたはオンラインの大規模モデルに依存している。この依存関係は実用上の導入障壁を生み出し、ユーザーデータの安全性とプライバシーに関する懸念を引き起こしている。本研究では、人間の執筆プロセスを模倣するフレームワークと80億パラメータの深い調査エージェントで構成される、軽量でありながら高性能なローカルソリューション「AgentCPM-Report」を提案する。本フレームワークは、報告書生成中に動的にアウトラインを修正可能にするWriting As Reasoning Policy(WARP)を採用する。このポリシーの下、エージェントは証拠に基づく草案作成と推論主導の深化を交互に行い、情報収集、知識精緻化、反復的なアウトライン進化を共同で支援する。この能力を小規模モデルに効果的に付与するため、コールドスタート、原子スキル強化学習、統合パイプライン強化学習からなる多段階エージェント訓練戦略を導入した。DeepResearch Bench、DeepConsult、DeepResearch Gymにおける実験により、AgentCPM-Reportは主要なクローズドソースシステムを凌駕し、特にInsight指標で大幅な向上を示すことを実証した。
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.
PDF202February 11, 2026