AgentCPM-Report: Чередование чернового наброска и углубления для открытого глубокого исследования
AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research
February 6, 2026
Авторы: Yishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
cs.AI
Аннотация
Создание глубоких исследовательских отчетов требует масштабного сбора информации и синтеза анализа, основанного на инсайтах, что представляет собой серьезную проблему для современных языковых моделей. Большинство существующих подходов следуют парадигме «спланировать, затем написать», чья производительность сильно зависит от качества первоначального плана. Однако построение всеобъемлющего плана само по себе требует развитых способностей к рассуждению, что вынуждает современные системы глубокого исследования почти исключительно полагаться на закрытые или онлайн-большие модели. Эта зависимость создает практические барьеры для развертывания и порождает проблемы безопасности и конфиденциальности пользовательских данных. В данной работе мы представляем AgentCPM-Report — легковесное, но высокопроизводительное локальное решение, состоящее из фреймворка, имитирующего человеческий процесс написания текста, и агента глубокого исследования с 8 миллиардами параметров. Наш фреймворк использует Политику Рассуждения через Письмо (Writing As Reasoning Policy, WARP), которая позволяет моделям динамически пересматривать планы в процессе генерации отчета. В рамках этой политики агент чередует Этапы Создания Черновика на Основе Доказательств и Смыслового Углубления, совместно обеспечивая сбор информации, уточнение знаний и итеративную эволюцию плана. Чтобы эффективно наделить небольшие модели этой способностью, мы представляем стратегию Многоэтапного Агентного Обучения, состоящую из «холодного старта», RL-обучения атомарным навыкам и RL-обучения целостному пайплайну. Эксперименты на бенчмарках DeepResearch Bench, DeepConsult и DeepResearch Gym демонстрируют, что AgentCPM-Report превосходит ведущие закрытые системы со значительным отрывом по показателю Insight.
English
Generating deep research reports requires large-scale information acquisition and the synthesis of insight-driven analysis, posing a significant challenge for current language models. Most existing approaches follow a plan-then-write paradigm, whose performance heavily depends on the quality of the initial outline. However, constructing a comprehensive outline itself demands strong reasoning ability, causing current deep research systems to rely almost exclusively on closed-source or online large models. This reliance raises practical barriers to deployment and introduces safety and privacy concerns for user-authored data. In this work, we present AgentCPM-Report, a lightweight yet high-performing local solution composed of a framework that mirrors the human writing process and an 8B-parameter deep research agent. Our framework uses a Writing As Reasoning Policy (WARP), which enables models to dynamically revise outlines during report generation. Under this policy, the agent alternates between Evidence-Based Drafting and Reasoning-Driven Deepening, jointly supporting information acquisition, knowledge refinement, and iterative outline evolution. To effectively equip small models with this capability, we introduce a Multi-Stage Agentic Training strategy, consisting of cold-start, atomic skill RL, and holistic pipeline RL. Experiments on DeepResearch Bench, DeepConsult, and DeepResearch Gym demonstrate that AgentCPM-Report outperforms leading closed-source systems, with substantial gains in Insight.