Socratic-Zero: Redeneren bootstrappen via data-vrije co-evolutie van agents
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
Auteurs: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
Samenvatting
Recente doorbraken in grote taalmodellen (LLMs) voor redeneertaken zijn sterk afhankelijk van enorme, hoogwaardige datasets—meestal door mensen geannoteerd en daardoor moeilijk op te schalen. Hoewel datasynthese of -distillatie een veelbelovend alternatief biedt, kampen bestaande methoden met inconsistente data-kwaliteit en een onvermogen om dynamisch aan te passen aan de evoluerende capaciteiten van het model, wat leidt tot suboptimale trainingssignalen. Om deze beperkingen aan te pakken, introduceren we Socratic-Zero, een volledig autonoom framework dat hoogwaardige trainingsdata genereert uit minimale seed-voorbeelden via de co-evolutie van drie agents: de Leraar, de Oplosser en de Generator. De Oplosser verfijnt continu zijn redenering door te leren van voorkeursfeedback op zowel succesvolle als mislukte trajecten; de Leraar ontwerpt adaptief steeds uitdagendere vragen op basis van de zwaktes van de Oplosser; en de Generator destilleert de vraagontwerpstrategie van de Leraar om schaalbare, hoogwaardige curriculumgeneratie mogelijk te maken. Dit gesloten systeem produceert een zelfverbeterend curriculum—zonder dat bestaande taken of labels nodig zijn. Opmerkelijk is dat, startend met slechts 100 seed-vragen, onze Socratic-Solver-8B een gemiddelde winst van +20,2 procentpunten behaalt ten opzichte van eerdere datasynthesemethoden over zeven wiskundige redeneerbenchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva en GSM8K), met consistente verbeteringen op zowel Qwen3- als GLM4-serie modellen. Nog verrassender is dat synthetische data van Socratic-Generator-32B student-LLMs in staat stelt om superieure prestaties te behalen vergeleken met andere state-of-the-art (SOTA) commerciële LLMs op deze benchmarks, waaronder Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 en Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.