ChatPaper.aiChatPaper

Skalierung von Agenten durch kontinuierliches Vor-Training

Scaling Agents via Continual Pre-training

September 16, 2025
papers.authors: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben sich zu agentenbasierten Systemen entwickelt, die in der Lage sind, Werkzeuge autonom zu nutzen und mehrstufige Schlussfolgerungen für die Lösung komplexer Probleme anzustellen. Allerdings schneiden nachträgliche Trainingsansätze, die auf allgemeinen Basismodellen aufbauen, in agentenbasierten Aufgaben durchweg schlechter ab, insbesondere in Open-Source-Implementierungen. Wir identifizieren die Ursache: Das Fehlen robuster agentenbasierter Basismodelle zwingt die Modelle während des nachträglichen Trainings dazu, gleichzeitig diverse agentenbasierte Verhaltensweisen zu erlernen und sie an Experten-Demonstrationen auszurichten, wodurch grundlegende Optimierungsspannungen entstehen. Zu diesem Zweck schlagen wir als Erste vor, Agentic Continual Pre-training (Agentic CPT) in die Trainingspipeline für tiefgehende Forschungsagenten zu integrieren, um leistungsstarke agentenbasierte Basismodelle zu entwickeln. Basierend auf diesem Ansatz entwickeln wir ein tiefgehendes Forschungsagentenmodell namens AgentFounder. Wir evaluieren unser AgentFounder-30B anhand von 10 Benchmarks und erzielen state-of-the-art Leistungen, während es eine starke Fähigkeit zur Werkzeugnutzung beibehält, insbesondere 39,9 % auf BrowseComp-en, 43,3 % auf BrowseComp-zh und 31,5 % Pass@1 auf HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
PDF623September 17, 2025