AgentFrontier : Élargir la frontière des capacités des agents LLM grâce à la synthèse de données guidée par la ZPD
AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis
October 28, 2025
papers.authors: Xuanzhong Chen, Zile Qiao, Guoxin Chen, Liangcai Su, Zhen Zhang, Xinyu Wang, Pengjun Xie, Fei Huang, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
L'entraînement d'agents de modèles de langage à grande échelle sur des tâches situées à la frontière de leurs capacités est essentiel pour débloquer un raisonnement avancé. Nous présentons une approche de synthèse de données inspirée par la théorie éducative de la Zone de Développement Proximal (ZDP), qui définit cette frontière comme des tâches qu'un LLM ne peut résoudre seul mais peut maîtriser avec un guidage. Pour opérationnaliser cela, nous introduisons l'AgentFrontier Engine, un pipeline automatisé qui synthétise des données multidisciplinaires de haute qualité, situées précisément dans la ZDP du LLM. Ce moteur prend en charge à la fois le pré-entraînement continu avec des données riches en connaissances et l'entraînement ciblé post-formation sur des tâches de raisonnement complexe. À partir du même cadre, nous dérivons le ZPD Exam, un benchmark dynamique et automatisé conçu pour évaluer les capacités des agents sur ces tâches frontières. Nous avons entraîné le modèle AgentFrontier-30B-A3B sur nos données synthétisées, qui obtient des résultats de pointe sur des benchmarks exigeants comme Humanity's Last Exam, surpassant même certains agents propriétaires leaders. Notre travail démontre qu'une approche de synthèse de données guidée par la ZDP offre une voie évolutive et efficace pour construire des agents LLM plus performants.
English
Training large language model agents on tasks at the frontier of their
capabilities is key to unlocking advanced reasoning. We introduce a data
synthesis approach inspired by the educational theory of the Zone of Proximal
Development (ZPD), which defines this frontier as tasks an LLM cannot solve
alone but can master with guidance. To operationalize this, we present the
AgentFrontier Engine, an automated pipeline that synthesizes high-quality,
multidisciplinary data situated precisely within the LLM's ZPD. This engine
supports both continued pre-training with knowledge-intensive data and targeted
post-training on complex reasoning tasks. From the same framework, we derive
the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent
capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on
our synthesized data, which achieves state-of-the-art results on demanding
benchmarks like Humanity's Last Exam, even surpassing some leading proprietary
agents. Our work demonstrates that a ZPD-guided approach to data synthesis
offers a scalable and effective path toward building more capable LLM agents.