ChatPaper.aiChatPaper

Scalabilità degli Agenti tramite Pre-addestramento Continuo

Scaling Agents via Continual Pre-training

September 16, 2025
Autori: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Abstract

I grandi modelli linguistici (LLM) si sono evoluti in sistemi agentici capaci di utilizzare strumenti in modo autonomo e di ragionare in più fasi per risolvere problemi complessi. Tuttavia, gli approcci post-addestramento basati su modelli di fondazione generici continuano a ottenere prestazioni inferiori nei compiti agentici, specialmente nelle implementazioni open-source. Identifichiamo la causa principale: l'assenza di modelli di fondazione agentici robusti costringe i modelli durante il post-addestramento a imparare contemporaneamente comportamenti agentici diversificati e ad allinearli a dimostrazioni esperte, creando così tensioni fondamentali di ottimizzazione. A tal fine, siamo i primi a proporre l'integrazione dell'Addestramento Continuo Agente (Agentic CPT) nella pipeline di addestramento degli agenti di ricerca approfondita per costruire potenti modelli di fondazione agentici. Basandoci su questo approccio, sviluppiamo un modello di agente di ricerca approfondita denominato AgentFounder. Valutiamo il nostro AgentFounder-30B su 10 benchmark e otteniamo prestazioni all'avanguardia, mantenendo una forte capacità di utilizzo degli strumenti, in particolare il 39,9% su BrowseComp-en, il 43,3% su BrowseComp-zh e il 31,5% Pass@1 su HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
PDF1129September 19, 2025