ChatPaper.aiChatPaper

Масштабирование агентов через непрерывное предварительное обучение

Scaling Agents via Continual Pre-training

September 16, 2025
Авторы: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Аннотация

Крупные языковые модели (LLM) эволюционировали в агентные системы, способные к автономному использованию инструментов и многошаговому рассуждению для решения сложных задач. Однако посттренировочные подходы, основанные на универсальных базовых моделях, стабильно показывают низкую производительность в агентных задачах, особенно в открытых реализациях. Мы выявили коренную причину: отсутствие надежных агентных базовых моделей вынуждает модели в процессе посттренировки одновременно изучать разнообразные агентные поведения и согласовывать их с экспертными демонстрациями, что создает фундаментальные оптимизационные противоречия. В связи с этим мы первыми предлагаем внедрить Агентное Постоянное Предварительное Обучение (Agentic CPT) в процесс обучения глубоких исследовательских агентов для создания мощных агентных базовых моделей. На основе этого подхода мы разработали модель глубокого исследовательского агента под названием AgentFounder. Мы оценили нашу модель AgentFounder-30B на 10 бенчмарках и достигли наилучших результатов, сохранив при этом высокую способность к использованию инструментов, в частности, 39,9% на BrowseComp-en, 43,3% на BrowseComp-zh и 31,5% Pass@1 на HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
PDF623September 17, 2025