Schalen van Agents via Continue Voorafgaande Training
Scaling Agents via Continual Pre-training
September 16, 2025
Auteurs: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Grote taalmodellen (LLMs) zijn geëvolueerd naar agentische systemen die in staat zijn tot autonoom gereedschapsgebruik en meerstaps redeneren voor complexe probleemoplossing. Post-trainingsbenaderingen die voortbouwen op algemene basis-modellen presteren echter consistent slechter bij agentische taken, met name in open-source implementaties. Wij identificeren de oorzaak: het ontbreken van robuuste agentische basis-modellen dwingt modellen tijdens de post-training om tegelijkertijd diverse agentische gedragingen te leren en deze af te stemmen op expertdemonstraties, wat fundamentele optimalisatiespanningen creëert. Daarom zijn wij de eersten die het voorstel doen om Agentische Continue Pre-training (Agentic CPT) op te nemen in de trainingspijplijn van diepe onderzoeksagenten om krachtige agentische basis-modellen te bouwen. Op basis van deze benadering ontwikkelen wij een diep onderzoeksagent-model genaamd AgentFounder. Wij evalueren onze AgentFounder-30B op 10 benchmarks en behalen state-of-the-art prestaties terwijl het sterke gereedschapsgebruik behoudt, met name 39,9% op BrowseComp-en, 43,3% op BrowseComp-zh en 31,5% Pass@1 op HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of
autonomous tool use and multi-step reasoning for complex problem-solving.
However, post-training approaches building upon general-purpose foundation
models consistently underperform in agentic tasks, particularly in open-source
implementations. We identify the root cause: the absence of robust agentic
foundation models forces models during post-training to simultaneously learn
diverse agentic behaviors while aligning them to expert demonstrations, thereby
creating fundamental optimization tensions. To this end, we are the first to
propose incorporating Agentic Continual Pre-training (Agentic CPT) into the
deep research agents training pipeline to build powerful agentic foundational
models. Based on this approach, we develop a deep research agent model named
AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve
state-of-the-art performance while retains strong tool-use ability, notably
39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.