ChatPaper.aiChatPaper

AgentCPM-Report: Intercalação de Rascunho e Aprofundamento para Pesquisa Profunda de Tema Livre

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

February 6, 2026
Autores: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI

Resumo

A geração de relatórios de pesquisa aprofundada requer aquisição de informação em larga escala e a síntese de análises orientadas por insights, representando um desafio significativo para os modelos de linguagem atuais. A maioria das abordagens existentes segue um paradigma de planear-depois-escrever, cujo desempenho depende fortemente da qualidade do esboço inicial. No entanto, a construção de um esboço abrangente exige, por si só, uma forte capacidade de raciocínio, fazendo com que os sistemas atuais de pesquisa profunda dependam quase exclusivamente de grandes modelos *online* ou de código fechado. Esta dependência levanta barreiras práticas à implementação e introduz preocupações de segurança e privacidade para os dados dos utilizadores. Neste trabalho, apresentamos o AgentCPM-Report, uma solução local leve mas de alto desempenho, composta por uma estrutura que espelha o processo humano de escrita e por um agente de pesquisa profunda com 8 mil milhões de parâmetros. A nossa estrutura utiliza uma Política de Escrita como Raciocínio (WARP), que permite aos modelos rever dinamicamente os esboços durante a geração do relatório. Sob esta política, o agente alterna entre a Redação Baseada em Evidências e o Aprofundamento Orientado por Raciocínio, suportando conjuntamente a aquisição de informação, o refinamento do conhecimento e a evolução iterativa do esboço. Para equipar eficazmente modelos pequenos com esta capacidade, introduzimos uma estratégia de Treino Agêntico Multiestágio, consistindo em arranque a frio, RL de competências atómicas e RL de pipeline holístico. Experiências no DeepResearch Bench, DeepConsult e DeepResearch Gym demonstram que o AgentCPM-Report supera os principais sistemas de código fechado, com ganhos substanciais em Insight.
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.
PDF212March 31, 2026