Socratic-Zero: Bootstrapping von Argumentationsfähigkeiten durch datenfreie Agenten-Koevolution
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
papers.authors: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
papers.abstract
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) in Bezug auf Aufgaben des logischen Denkens basieren stark auf umfangreichen, hochwertigen Datensätzen – in der Regel von Menschen annotiert und somit schwer skalierbar. Während die Datensynthese oder -destillation eine vielversprechende Alternative bietet, kämpfen bestehende Methoden mit inkonsistenter Datenqualität und der Unfähigkeit, sich dynamisch an die sich entwickelnden Fähigkeiten des Modells anzupassen, was zu suboptimalen Trainingssignalen führt. Um diese Einschränkungen zu überwinden, stellen wir Socratic-Zero vor, ein vollständig autonomes Framework, das hochwertige Trainingsdaten aus minimalen Startbeispielen durch die Ko-Evolution von drei Agenten generiert: dem Lehrer, dem Löser und dem Generator. Der Löser verfeinert kontinuierlich sein logisches Denken, indem er aus Präferenzfeedback sowohl zu erfolgreichen als auch zu gescheiterten Lösungswegen lernt; der Lehrer passt sich an und entwickelt zunehmend herausfordernde Fragen basierend auf den Schwächen des Lösers; und der Generator destilliert die Frageentwurfsstrategie des Lehrers, um eine skalierbare, hochwertige Lehrplanerstellung zu ermöglichen. Dieses geschlossene System erzeugt einen sich selbst verbessernden Lehrplan – ohne dass vordefinierte Aufgaben oder Labels erforderlich sind. Bemerkenswerterweise erzielt unser Socratic-Solver-8B, ausgehend von nur 100 Startfragen, einen durchschnittlichen Gewinn von +20,2 Prozentpunkten gegenüber früheren Methoden der Datensynthese über sieben mathematische Denkaufgaben-Benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva und GSM8K), mit konsistenten Verbesserungen sowohl bei den Qwen3- als auch den GLM4-Serienmodellen. Noch überraschender ist, dass synthetische Daten des Socratic-Generator-32B es Schülermodellen ermöglichen, eine überlegene Leistung im Vergleich zu anderen modernsten (SOTA) kommerziellen LLMs auf diesen Benchmarks zu erzielen, einschließlich Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 und Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.