ChatPaper.aiChatPaper

**AgentCPM-Report: Intercalación de Borrador y Profundización para la Investigación Profunda de Temas Abiertos**

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

February 6, 2026
Autores: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI

Resumen

La generación de informes de investigación profundos requiere la adquisición de información a gran escala y la síntesis de análisis basados en conocimientos, lo que supone un desafío significativo para los modelos lingüísticos actuales. La mayoría de los enfoques existentes siguen un paradigma de planificar-y-escribir, cuyo rendimiento depende en gran medida de la calidad del esquema inicial. Sin embargo, la construcción de un esquema integral en sí misma exige una fuerte capacidad de razonamiento, lo que hace que los sistemas actuales de investigación profunda dependan casi exclusivamente de modelos grandes de código cerrado o en línea. Esta dependencia genera barreras prácticas para el despliegue e introduce problemas de seguridad y privacidad para los datos de los usuarios. En este trabajo, presentamos AgentCPM-Report, una solución local ligera pero de alto rendimiento compuesta por un marco que refleja el proceso de escritura humano y un agente de investigación profunda de 8B parámetros. Nuestro marco utiliza una Política de Escritura como Razonamiento (WARP), que permite a los modelos revisar dinámicamente los esquemas durante la generación del informe. Bajo esta política, el agente alterna entre la Redacción Basada en Evidencias y la Profundización Impulsada por el Razonamiento, apoyando conjuntamente la adquisición de información, el refinamiento del conocimiento y la evolución iterativa del esquema. Para dotar eficazmente a los modelos pequeños de esta capacidad, introducimos una estrategia de Entrenamiento Agéntico Multi-Etapa, que consiste en un inicio en frío, RL de habilidades atómicas y RL de pipeline holístico. Los experimentos en DeepResearch Bench, DeepConsult y DeepResearch Gym demuestran que AgentCPM-Report supera a los principales sistemas de código cerrado, con ganancias sustanciales en Perspectiva.
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.
PDF202February 11, 2026