AgentCPM-Report: Intervallare Bozza e Approfondimento per una Ricerca Profonda a Tema Aperto

Abstract

La generazione di rapporti di ricerca approfonditi richiede un'acquisizione di informazioni su larga scala e la sintesi di analisi guidate da insight, rappresentando una sfida significativa per gli attuali modelli linguistici. La maggior parte degli approcci esistenti segue un paradigma "pianifica-poi-scrivi", le cui prestazioni dipendono fortemente dalla qualità della bozza iniziale. Tuttavia, la costruzione di una bozza completa richiede a sua volta forti capacità di ragionamento, causando la quasi totale dipendenza degli attuali sistemi di ricerca approfondita da modelli linguistici online o closed-source. Questa dipendenza crea barriere pratiche alla distribuzione e solleva preoccupazioni riguardanti sicurezza e privacy dei dati utente. In questo lavoro presentiamo AgentCPM-Report, una soluzione locale leggera ma ad alte prestazioni composta da un framework che simula il processo di scrittura umano e un agente di ricerca approfondito da 8 miliardi di parametri. Il nostro framework utilizza una Politica di Scrittura come Ragionamento (WARP), che consente ai modelli di revisionare dinamicamente le bozze durante la generazione del rapporto. Seguendo questa politica, l'agente alterna tra Stesura Basata su Evidenze e Approfondimento Guidato dal Ragionamento, supportando congiuntamente l'acquisizione di informazioni, il raffinamento della conoscenza e l'evoluzione iterativa della bozza. Per dotare efficacemente i modelli di piccole dimensioni di questa capacità, introduciamo una strategia di Addestramento Agente Multi-Stadio, composta da avvio a freddo, RL per abilità atomiche e RL per pipeline olistica. Esperimenti su DeepResearch Bench, DeepConsult e DeepResearch Gym dimostrano che AgentCPM-Report supera i principali sistemi closed-source, con miglioramenti sostanziali negli Insight.

English

Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.

AgentCPM-Report: Intervallare Bozza e Approfondimento per una Ricerca Profonda a Tema Aperto

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Abstract

Support