AgentCPM-Report: Intercalação de Rascunho e Aprofundamento para Pesquisa Profunda de Tema Livre

Resumo

A geração de relatórios de pesquisa aprofundada requer aquisição de informação em larga escala e a síntese de análises orientadas por insights, representando um desafio significativo para os modelos de linguagem atuais. A maioria das abordagens existentes segue um paradigma de planear-depois-escrever, cujo desempenho depende fortemente da qualidade do esboço inicial. No entanto, a construção de um esboço abrangente exige, por si só, uma forte capacidade de raciocínio, fazendo com que os sistemas atuais de pesquisa profunda dependam quase exclusivamente de grandes modelos *online* ou de código fechado. Esta dependência levanta barreiras práticas à implementação e introduz preocupações de segurança e privacidade para os dados dos utilizadores. Neste trabalho, apresentamos o AgentCPM-Report, uma solução local leve mas de alto desempenho, composta por uma estrutura que espelha o processo humano de escrita e por um agente de pesquisa profunda com 8 mil milhões de parâmetros. A nossa estrutura utiliza uma Política de Escrita como Raciocínio (WARP), que permite aos modelos rever dinamicamente os esboços durante a geração do relatório. Sob esta política, o agente alterna entre a Redação Baseada em Evidências e o Aprofundamento Orientado por Raciocínio, suportando conjuntamente a aquisição de informação, o refinamento do conhecimento e a evolução iterativa do esboço. Para equipar eficazmente modelos pequenos com esta capacidade, introduzimos uma estratégia de Treino Agêntico Multiestágio, consistindo em arranque a frio, RL de competências atómicas e RL de pipeline holístico. Experiências no DeepResearch Bench, DeepConsult e DeepResearch Gym demonstram que o AgentCPM-Report supera os principais sistemas de código fechado, com ganhos substanciais em Insight.

English

Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.