ChatPaper.aiChatPaper

Mise à l'échelle des agents par pré-entraînement continu

Scaling Agents via Continual Pre-training

September 16, 2025
papers.authors: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont évolué en systèmes agentiques capables d'utiliser des outils de manière autonome et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Cependant, les approches post-entraînement basées sur des modèles de fondation à usage général sous-performent systématiquement dans les tâches agentiques, en particulier dans les implémentations open-source. Nous identifions la cause racine : l'absence de modèles de fondation agentiques robustes oblige les modèles, lors du post-entraînement, à apprendre simultanément des comportements agentiques divers tout en les alignant sur des démonstrations expertes, créant ainsi des tensions d'optimisation fondamentales. À cette fin, nous sommes les premiers à proposer d'intégrer un pré-entraînement continu agentique (Agentic CPT) dans le pipeline d'entraînement des agents de recherche approfondie pour construire des modèles de fondation agentiques puissants. Sur la base de cette approche, nous développons un modèle d'agent de recherche approfondie nommé AgentFounder. Nous évaluons notre AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une forte capacité d'utilisation d'outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
PDF623September 17, 2025