AgentFrontier: Erweiterung der Fähigkeitsgrenze von LLM-Agenten durch ZPD-gesteuerte Datensynthese
AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis
October 28, 2025
papers.authors: Xuanzhong Chen, Zile Qiao, Guoxin Chen, Liangcai Su, Zhen Zhang, Xinyu Wang, Pengjun Xie, Fei Huang, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
Das Training großer Sprachmodell-Agenten an Aufgaben an der Grenze ihrer Fähigkeiten ist entscheidend, um fortschrittliches Denkvermögen zu erschließen. Wir stellen einen Daten-Synthese-Ansatz vor, der von der pädagogischen Theorie der Zone der nächsten Entwicklung (ZNE) inspiriert ist. Diese definiert diese Grenze als Aufgaben, die ein LLM nicht alleine lösen kann, aber mit Anleitung meistern kann. Zur Umsetzung präsentieren wir die AgentFrontier Engine, eine automatisierte Pipeline, die hochwertige, multidisziplinäre Daten synthetisiert, die sich genau innerhalb der ZNE des LLM befinden. Diese Engine unterstützt sowohl fortgesetztes Pre-Training mit wissensintensiven Daten als auch gezieltes Post-Training an komplexen Denkaufgaben. Aus demselben Framework leiten wir die ZNE-Prüfung ab, einen dynamischen und automatisierten Benchmark, der entwickelt wurde, um die Fähigkeiten von Agenten an diesen Grenzaufgaben zu bewerten. Wir trainieren das AgentFrontier-30B-A3B-Modell auf unseren synthetisierten Daten, das state-of-the-art Ergebnisse auf anspruchsvollen Benchmarks wie "Humanity's Last Exam" erzielt und sogar einige führende proprietäre Agenten übertrifft. Unsere Arbeit zeigt, dass ein ZNE-gesteuerter Ansatz zur Datensynthese einen skalierbaren und effektiven Weg bietet, um leistungsfähigere LLM-Agenten zu entwickeln.
English
Training large language model agents on tasks at the frontier of their
capabilities is key to unlocking advanced reasoning. We introduce a data
synthesis approach inspired by the educational theory of the Zone of Proximal
Development (ZPD), which defines this frontier as tasks an LLM cannot solve
alone but can master with guidance. To operationalize this, we present the
AgentFrontier Engine, an automated pipeline that synthesizes high-quality,
multidisciplinary data situated precisely within the LLM's ZPD. This engine
supports both continued pre-training with knowledge-intensive data and targeted
post-training on complex reasoning tasks. From the same framework, we derive
the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent
capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on
our synthesized data, which achieves state-of-the-art results on demanding
benchmarks like Humanity's Last Exam, even surpassing some leading proprietary
agents. Our work demonstrates that a ZPD-guided approach to data synthesis
offers a scalable and effective path toward building more capable LLM agents.