AgentFrontier: Expandindo a Fronteira de Capacidade de Agentes de LLM com Síntese de Dados Guiada pela ZPD

Resumo

O treinamento de agentes de modelos de linguagem de grande escala em tarefas na fronteira de suas capacidades é fundamental para desbloquear raciocínio avançado. Apresentamos uma abordagem de síntese de dados inspirada na teoria educacional da Zona de Desenvolvimento Proximal (ZDP), que define essa fronteira como tarefas que um LLM não consegue resolver sozinho, mas pode dominar com orientação. Para operacionalizar isso, apresentamos o AgentFrontier Engine, um *pipeline* automatizado que sintetiza dados multidisciplinares de alta qualidade situados precisamente dentro da ZDP do LLM. Este mecanismo suporta tanto o pré-treinamento contínuo com dados intensivos em conhecimento quanto o pós-treinamento direcionado em tarefas complexas de raciocínio. A partir da mesma estrutura, derivamos o ZPD Exam, um *benchmark* dinâmico e automatizado projetado para avaliar as capacidades dos agentes nessas tarefas de fronteira. Treinamos o modelo AgentFrontier-30B-A3B em nossos dados sintetizados, que atinge resultados de última geração em *benchmarks* exigentes como o Humanity's Last Exam, superando até mesmo alguns agentes proprietários líderes. Nosso trabalho demonstra que uma abordagem guiada pela ZDP para a síntese de dados oferece um caminho escalável e eficaz para a construção de agentes de LLM mais capazes.

English

Training large language model agents on tasks at the frontier of their capabilities is key to unlocking advanced reasoning. We introduce a data synthesis approach inspired by the educational theory of the Zone of Proximal Development (ZPD), which defines this frontier as tasks an LLM cannot solve alone but can master with guidance. To operationalize this, we present the AgentFrontier Engine, an automated pipeline that synthesizes high-quality, multidisciplinary data situated precisely within the LLM's ZPD. This engine supports both continued pre-training with knowledge-intensive data and targeted post-training on complex reasoning tasks. From the same framework, we derive the ZPD Exam, a dynamic and automated benchmark designed to evaluate agent capabilities on these frontier tasks. We train AgentFrontier-30B-A3B model on our synthesized data, which achieves state-of-the-art results on demanding benchmarks like Humanity's Last Exam, even surpassing some leading proprietary agents. Our work demonstrates that a ZPD-guided approach to data synthesis offers a scalable and effective path toward building more capable LLM agents.

AgentFrontier: Expandindo a Fronteira de Capacidade de Agentes de LLM com Síntese de Dados Guiada pela ZPD

AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

Resumo

Support