Escalonamento de Agentes por meio de Pré-treinamento Contínuo
Scaling Agents via Continual Pre-training
September 16, 2025
Autores: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) evoluíram para sistemas agentes capazes de uso autônomo de ferramentas e raciocínio em múltiplas etapas para a resolução de problemas complexos. No entanto, abordagens pós-treinamento baseadas em modelos de fundo de propósito geral consistentemente apresentam desempenho inferior em tarefas agentes, especialmente em implementações de código aberto. Identificamos a causa raiz: a ausência de modelos de fundo agentes robustos força os modelos durante o pós-treinamento a aprender simultaneamente diversos comportamentos agentes enquanto os alinham a demonstrações de especialistas, criando assim tensões fundamentais de otimização. Para isso, somos os primeiros a propor a incorporação do Pré-treinamento Contínuo Agente (Agentic CPT) no pipeline de treinamento de agentes de pesquisa profunda para construir modelos de fundo agentes poderosos. Com base nessa abordagem, desenvolvemos um modelo de agente de pesquisa profunda chamado AgentFounder. Avaliamos nosso AgentFounder-30B em 10 benchmarks e alcançamos desempenho de ponta, mantendo uma forte capacidade de uso de ferramentas, notavelmente 39,9% no BrowseComp-en, 43,3% no BrowseComp-zh e 31,5% Pass@1 no HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of
autonomous tool use and multi-step reasoning for complex problem-solving.
However, post-training approaches building upon general-purpose foundation
models consistently underperform in agentic tasks, particularly in open-source
implementations. We identify the root cause: the absence of robust agentic
foundation models forces models during post-training to simultaneously learn
diverse agentic behaviors while aligning them to expert demonstrations, thereby
creating fundamental optimization tensions. To this end, we are the first to
propose incorporating Agentic Continual Pre-training (Agentic CPT) into the
deep research agents training pipeline to build powerful agentic foundational
models. Based on this approach, we develop a deep research agent model named
AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve
state-of-the-art performance while retains strong tool-use ability, notably
39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.