ChatPaper.aiChatPaper

AgentCPM-Bericht: Verschachteltes Entwerfen und Vertiefen für unbegrenzte tiefgehende Forschung

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

February 6, 2026
papers.authors: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI

papers.abstract

Die Erstellung tiefgehender Forschungsberichte erfordert die großflächige Erfassung von Informationen und die Synthese erkenntnisgetriebener Analysen, was eine erhebliche Herausforderung für aktuelle Sprachmodelle darstellt. Die meisten bestehenden Ansätze folgen einem Plan-then-write-Paradigma, dessen Leistung stark von der Qualität des anfänglichen Gliederungsentwurfs abhängt. Die Erstellung einer umfassenden Gliederung erfordert jedoch selbst hohe reasoning-Fähigkeiten, weshalb aktuelle Systeme für tiefgehende Recherchen fast ausschließlich auf Closed-Source- oder Online-Großmodelle angewiesen sind. Diese Abhängigkeit schafft praktische Barrieren für den Einsatz und birgt Sicherheits- und Datenschutzrisiken für nutzergenerierte Daten. In dieser Arbeit stellen wir AgentCPM-Report vor, eine leichtgewichtige, aber leistungsstarke lokale Lösung, bestehend aus einem Framework, das den menschlichen Schreibprozess nachbildet, und einem Deep-Research-Agenten mit 8 Milliarden Parametern. Unser Framework nutzt eine Writing As Reasoning Policy (WARP), die es Modellen ermöglicht, Gliederungen während der Berichterstellung dynamisch zu überarbeiten. Im Rahmen dieser Policy wechselt der Agent zwischen evidenzbasierter Entwurfserstellung und reasoning-gesteuerter Vertiefung, wodurch gemeinsam Informationsbeschaffung, Wissensverfeinerung und iterative Gliederungsentwicklung unterstützt werden. Um kleinen Modellen diese Fähigkeit effektiv zu vermitteln, führen wir eine Multi-Stage Agentic Training-Strategie ein, bestehend aus Cold-Start, Reinforcement Learning für atomare Fähigkeiten und Reinforcement Learning für ganzheitliche Pipelines. Experimente auf DeepResearch Bench, DeepConsult und DeepResearch Gym zeigen, dass AgentCPM-Report führende Closed-Source-Systeme übertrifft, mit erheblichen Verbesserungen bei der Erkenntnistiefe (Insight).
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.
PDF202February 11, 2026