AgentFrontier: Расширение границ возможностей агентов на основе больших языковых моделей с помощью синтеза данных под руководством ЗБР
AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis
October 28, 2025
Авторы: Xuanzhong Chen, Zile Qiao, Guoxin Chen, Liangcai Su, Zhen Zhang, Xinyu Wang, Pengjun Xie, Fei Huang, Jingren Zhou, Yong Jiang
cs.AI
Аннотация
Обучение агентов — больших языковых моделей (БЯМ) — на задачах, находящихся на границе их возможностей, является ключевым фактором для раскрытия продвинутого мышления. Мы представляем подход к синтезу данных, вдохновленный образовательной теорией Зоны Ближайшего Развития (ЗБР), которая определяет эту границу как задачи, которые БЯМ не может решить самостоятельно, но может освоить с помощью руководства. Для практической реализации этого подхода мы представляем Движок AgentFrontier — автоматизированный конвейер, который синтезирует высококачественные междисциплинарные данные, точно находящиеся в ЗБР модели. Этот движок поддерживает как продолженное предобучение на данных, насыщенных знаниями, так и целевую постобработку для сложных задач логического вывода. В рамках той же системы мы создали ZPD Exam — динамический и автоматизированный бенчмарк, предназначенный для оценки способностей агентов на этих передовых задачах. Мы обучили модель AgentFrontier-30B-A3B на наших синтезированных данных, и она показала наилучшие результаты на требовательных бенчмарках, таких как Humanity's Last Exam, даже превзойдя некоторые ведущие проприетарные агенты. Наша работа демонстрирует, что подход к синтезу данных, направляемый принципом ЗБР, предлагает масштабируемый и эффективный путь к созданию более способных агентов на основе БЯМ.
English
Training large language model agents on tasks at the frontier of their
capabilities is key to unlocking advanced reasoning. We introduce a data
synthesis approach inspired by the educational theory of the Zone of Proximal
Development (ZPD), which defines this frontier as tasks an LLM cannot solve
alone but can master with guidance. To operationalize this, we present the
AgentFrontier Engine, an automated pipeline that synthesizes high-quality,
multidisciplinary data situated precisely within the LLM's ZPD. This engine
supports both continued pre-training with knowledge-intensive data and targeted
post-training on complex reasoning tasks. From the same framework, we derive
the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent
capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on
our synthesized data, which achieves state-of-the-art results on demanding
benchmarks like Humanity's Last Exam, even surpassing some leading proprietary
agents. Our work demonstrates that a ZPD-guided approach to data synthesis
offers a scalable and effective path toward building more capable LLM agents.