Socratic-Zero: Aprimoramento do Raciocínio por meio da Coevolução de Agentes sem Dados
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
Autores: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) para tarefas de raciocínio dependem fortemente de conjuntos de dados massivos e de alta qualidade — tipicamente anotados por humanos e, portanto, difíceis de escalar. Embora a síntese ou destilação de dados ofereça uma alternativa promissora, os métodos existentes enfrentam desafios com a inconsistência na qualidade dos dados e a incapacidade de se adaptar dinamicamente às capacidades evolutivas do modelo, resultando em sinais de treinamento subótimos. Para superar essas limitações, introduzimos o Socratic-Zero, um framework totalmente autônomo que gera dados de treinamento de alta qualidade a partir de exemplos iniciais mínimos, por meio da coevolução de três agentes: o Professor, o Solucionador e o Gerador. O Solucionador refina continuamente seu raciocínio ao aprender com feedback de preferência sobre trajetórias bem-sucedidas e falhas; o Professor cria adaptativamente questões cada vez mais desafiadoras com base nas fraquezas do Solucionador; e o Gerador destila a estratégia de design de questões do Professor para permitir a geração escalável de currículos de alta fidelidade. Esse sistema em loop fechado produz um currículo de autoaperfeiçoamento — sem a necessidade de tarefas ou rótulos pré-existentes. Notavelmente, partindo de apenas 100 questões iniciais, nosso Socratic-Solver-8B alcança um ganho médio de +20,2 pontos percentuais em relação a métodos anteriores de síntese de dados em sete benchmarks de raciocínio matemático (AMC23, AIME24-25, Olimpíada, MATH-500, Minerva e GSM8K), com ganhos consistentes tanto em modelos da série Qwen3 quanto GLM4. Ainda mais surpreendente, os dados sintéticos gerados pelo Socratic-Generator-32B permitem que LLMs estudantes atinjam desempenho superior em comparação com outros LLMs comerciais de última geração (SOTA) nesses benchmarks, incluindo Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 e Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.