ChatPaper.aiChatPaper

AgentFrontier: ZPD 기반 데이터 합성을 통해 LLM 에이전트의 역량 한계 확장하기

AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

October 28, 2025
저자: Xuanzhong Chen, Zile Qiao, Guoxin Chen, Liangcai Su, Zhen Zhang, Xinyu Wang, Pengjun Xie, Fei Huang, Jingren Zhou, Yong Jiang
cs.AI

초록

대규모 언어 모델 에이전트를 그 역량의 한계에 도달한 과제들로 훈련시키는 것은 고급 추론 능력을 개척하는 핵심 열쇠입니다. 본 연구에서는 교육학의 근접 발달 영역(ZPD) 이론에서 영감을 받은 데이터 합성 접근법을 소개합니다. ZPD는 언어 모델이 단독으로는 해결할 수 없지만 지도를 받으면 숙달할 수 있는 과제들의 영역으로 정의됩니다. 이를 구현하기 위해 우리는 언어 모델의 ZPD 내에 정확히 위치한 고품질의 다학제적 데이터를 자동으로 합성하는 AgentFrontier Engine을 제시합니다. 이 엔진은 지식 집약적 데이터를 활용한 사전 학습의 지속과 복잡한 추론 과제에 대한 표적 사후 학습을 모두 지원합니다. 동일한 프레임워크에서 우리는 이러한 한계 과제들에 대한 에이전트 역량을 평가하도록 설계된 동적이고 자동화된 벤치마크인 ZPD Exam을 도출합니다. 우리는 합성된 데이터로 AgentFrontier-30B-A3B 모델을 훈련시켰으며, 이 모델은 Humanity's Last Exam과 같은 까다로운 벤치마크에서 최첨단 성능을 달성하여 일부 주요 독점 에이전트를 능가하기도 했습니다. 우리의 연구는 ZPD에 기반한 데이터 합성 접근법이 더 우수한 언어 모델 에이전트 구축을 위한 확장 가능하고 효과적인 경로를 제공함을 입증합니다.
English
Training large language model agents on tasks at the frontier of their capabilities is key to unlocking advanced reasoning. We introduce a data synthesis approach inspired by the educational theory of the Zone of Proximal Development (ZPD), which defines this frontier as tasks an LLM cannot solve alone but can master with guidance. To operationalize this, we present the AgentFrontier Engine, an automated pipeline that synthesizes high-quality, multidisciplinary data situated precisely within the LLM's ZPD. This engine supports both continued pre-training with knowledge-intensive data and targeted post-training on complex reasoning tasks. From the same framework, we derive the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on our synthesized data, which achieves state-of-the-art results on demanding benchmarks like Humanity's Last Exam, even surpassing some leading proprietary agents. Our work demonstrates that a ZPD-guided approach to data synthesis offers a scalable and effective path toward building more capable LLM agents.
PDF222December 1, 2025