ChatPaper.aiChatPaper

AgentCPM-Rapport : Entrelacement de la Rédaction et de l'Approfondissement pour une Recherche Approfondie et Ouverte

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

February 6, 2026
papers.authors: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI

papers.abstract

La génération de rapports de recherche approfondis nécessite une acquisition d'informations à grande échelle et la synthèse d'analyses fondées sur des insights, ce qui représente un défi majeur pour les modèles de langage actuels. La plupart des approches existantes suivent un paradigme planifier-puis-rédiger, dont les performances dépendent fortement de la qualité du plan initial. Cependant, la construction d'un plan complet exige elle-même une forte capacité de raisonnement, ce qui amène les systèmes de recherche approfondie actuels à dépendre presque exclusivement de grands modèles fermés ou en ligne. Cette dépendance crée des barrières pratiques au déploiement et soulève des préoccupations en matière de sécurité et de confidentialité pour les données des utilisateurs. Dans ce travail, nous présentons AgentCPM-Report, une solution locale légère mais performante composée d'un cadre qui reproduit le processus d'écriture humain et d'un agent de recherche approfondie de 8 milliards de paramètres. Notre cadre utilise une Politique d'Écriture comme Raisonnement (WARP), qui permet aux modèles de réviser dynamiquement les plans durant la génération du rapport. Selon cette politique, l'agent alterne entre une Rédaction Basée sur des Preuves et un Approfondissement Piloté par le Raisonnement, soutenant conjointement l'acquisition d'informations, l'affinement des connaissances et l'évolution itérative du plan. Pour doter efficacement les petits modèles de cette capacité, nous introduisons une stratégie d'Entraînement Agentique Multi-Étapes, comprenant un démarrage à froid, un RL de compétences atomiques et un RL de pipeline holistique. Les expériences sur DeepResearch Bench, DeepConsult et DeepResearch Gym démontrent qu'AgentCPM-Report surpasse les principaux systèmes fermés, avec des gains substantiels en matière d'Insight.
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.
PDF202February 11, 2026