ChatPaper.aiChatPaper

Escalado de agentes mediante preentrenamiento continuo

Scaling Agents via Continual Pre-training

September 16, 2025
Autores: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) han evolucionado hacia sistemas agentes capaces de utilizar herramientas de forma autónoma y realizar razonamientos multi-paso para la resolución de problemas complejos. Sin embargo, los enfoques de post-entrenamiento basados en modelos base de propósito general muestran un rendimiento consistentemente inferior en tareas agentes, particularmente en implementaciones de código abierto. Identificamos la causa raíz: la ausencia de modelos base agentes robustos obliga a los modelos durante el post-entrenamiento a aprender simultáneamente comportamientos agentes diversos mientras los alinean con demostraciones expertas, creando así tensiones fundamentales de optimización. Con este fin, somos los primeros en proponer incorporar el Pre-entrenamiento Continuo Agente (Agentic CPT) en la pipeline de entrenamiento de agentes de investigación profunda para construir modelos base agentes potentes. Basándonos en este enfoque, desarrollamos un modelo de agente de investigación profunda llamado AgentFounder. Evaluamos nuestro AgentFounder-30B en 10 benchmarks y logramos un rendimiento de vanguardia mientras conserva una fuerte capacidad de uso de herramientas, destacando un 39.9% en BrowseComp-en, 43.3% en BrowseComp-zh y 31.5% Pass@1 en HLE.
English
Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.
PDF612September 17, 2025