Mise à l'échelle des agents par pré-entraînement continu
Scaling Agents via Continual Pre-training
September 16, 2025
papers.authors: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont évolué en systèmes agentiques capables d'utiliser des outils de manière autonome et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Cependant, les approches post-entraînement basées sur des modèles de fondation à usage général sous-performent systématiquement dans les tâches agentiques, en particulier dans les implémentations open-source. Nous identifions la cause racine : l'absence de modèles de fondation agentiques robustes oblige les modèles, lors du post-entraînement, à apprendre simultanément des comportements agentiques divers tout en les alignant sur des démonstrations expertes, créant ainsi des tensions d'optimisation fondamentales. À cette fin, nous sommes les premiers à proposer d'intégrer un pré-entraînement continu agentique (Agentic CPT) dans le pipeline d'entraînement des agents de recherche approfondie pour construire des modèles de fondation agentiques puissants. Sur la base de cette approche, nous développons un modèle d'agent de recherche approfondie nommé AgentFounder. Nous évaluons notre AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une forte capacité d'utilisation d'outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of
autonomous tool use and multi-step reasoning for complex problem-solving.
However, post-training approaches building upon general-purpose foundation
models consistently underperform in agentic tasks, particularly in open-source
implementations. We identify the root cause: the absence of robust agentic
foundation models forces models during post-training to simultaneously learn
diverse agentic behaviors while aligning them to expert demonstrations, thereby
creating fundamental optimization tensions. To this end, we are the first to
propose incorporating Agentic Continual Pre-training (Agentic CPT) into the
deep research agents training pipeline to build powerful agentic foundational
models. Based on this approach, we develop a deep research agent model named
AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve
state-of-the-art performance while retains strong tool-use ability, notably
39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.