Socratic-Zero: Iniciación del razonamiento mediante la coevolución de agentes sin datos
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
Autores: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento dependen en gran medida de conjuntos de datos masivos y de alta calidad, típicamente anotados por humanos y, por lo tanto, difíciles de escalar. Aunque la síntesis o destilación de datos ofrece una alternativa prometedora, los métodos existentes enfrentan problemas de calidad inconsistente y una incapacidad para adaptarse dinámicamente a las capacidades evolutivas del modelo, lo que resulta en señales de entrenamiento subóptimas. Para abordar estas limitaciones, presentamos Socratic-Zero, un marco completamente autónomo que genera datos de entrenamiento de alta calidad a partir de ejemplos mínimos iniciales mediante la coevolución de tres agentes: el Maestro, el Solucionador y el Generador. El Solucionador refina continuamente su razonamiento al aprender de la retroalimentación de preferencias sobre trayectorias exitosas y fallidas; el Maestro diseña preguntas cada vez más desafiantes basándose en las debilidades del Solucionador; y el Generador destila la estrategia de diseño de preguntas del Maestro para permitir una generación escalable y de alta fidelidad del currículo. Este sistema de bucle cerrado produce un currículo de auto-mejora que no requiere tareas o etiquetas preexistentes. Notablemente, partiendo de solo 100 preguntas iniciales, nuestro Socratic-Solver-8B logra una mejora promedio de +20.2 puntos porcentuales sobre los métodos previos de síntesis de datos en siete benchmarks de razonamiento matemático (AMC23, AIME24-25, Olimpiada, MATH-500, Minerva y GSM8K), con ganancias consistentes en los modelos de las series Qwen3 y GLM4. Aún más sorprendente, los datos sintéticos generados por Socratic-Generator-32B permiten que los LLMs estudiantiles alcancen un rendimiento superior en comparación con otros LLMs comerciales de última generación (SOTA) en estos benchmarks, incluyendo Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 y Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.