AgentCPM-Rapport: Verweven van Opzet en Verdere Uitdieping voor Open-Einde Diepgaand Onderzoek

Samenvatting

Het genereren van diepgaande onderzoeksrapporten vereist grootschalige informatieverwerving en de synthese van inzichtgedreven analyse, wat een aanzienlijke uitdaging vormt voor huidige taalmodel(len). De meeste bestaande benaderingen volgen een plan-dan-schrijf paradigma, waarvan de prestaties sterk afhangen van de kwaliteit van de initiële outline. Het construeren van een uitgebreide outline vereist echter zelf een sterk redeneervermogen, waardoor huidige diepgaande onderzoekssystemen bijna uitsluitend vertrouwen op closed-source of online grote modellen. Deze afhankelijkheid creëert praktische barrières voor implementatie en brengt veiligheids- en privacyproblemen met zich mee voor gebruikersgegevens. In dit werk presenteren we AgentCPM-Report, een lichtgewicht maar hoogpresterende lokale oplossing bestaande uit een raamwerk dat het menselijk schrijfproces nabootst en een deep research agent met 8B parameters. Ons raamwerk gebruikt een Writing As Reasoning Policy (WARP), waarmee modellen outlines dynamisch kunnen reviseren tijdens rapportgeneratie. Onder dit beleid wisselt de agent af tussen Evidence-Based Drafting en Reasoning-Driven Deepening, die gezamenlijk informatieverwerving, kennisverfijning en iteratieve outline-evolutie ondersteunen. Om kleine modellen effectief met deze capaciteit uit te rusten, introduceren we een Multi-Stage Agentic Training strategie, bestaande uit cold-start, atomic skill RL en holistische pipeline RL. Experimenten op DeepResearch Bench, DeepConsult en DeepResearch Gym tonen aan dat AgentCPM-Report beter presteert dan toonaangevende closed-source systemen, met aanzienlijke winst in Insight.

English

Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.

AgentCPM-Rapport: Verweven van Opzet en Verdere Uitdieping voor Open-Einde Diepgaand Onderzoek

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Samenvatting

Support