Socratic-Zero : Amorçage du raisonnement par co-évolution d'agents sans données
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
papers.authors: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
papers.abstract
Les récentes avancées dans les modèles de langage de grande taille (LLMs) pour les tâches de raisonnement reposent fortement sur des ensembles de données massifs et de haute qualité, généralement annotés par des humains et donc difficiles à étendre. Bien que la synthèse ou la distillation de données offre une alternative prometteuse, les méthodes existantes peinent à maintenir une qualité de données cohérente et à s'adapter dynamiquement aux capacités évolutives du modèle, ce qui entraîne des signaux d'entraînement sous-optimaux. Pour surmonter ces limitations, nous introduisons Socratic-Zero, un cadre entièrement autonome qui génère des données d'entraînement de haute qualité à partir d'exemples de départ minimaux grâce à la coévolution de trois agents : l'Enseignant, le Solveur et le Générateur. Le Solveur affine continuellement son raisonnement en apprenant à partir de retours de préférence sur les trajectoires réussies et échouées ; l'Enseignant conçoit de manière adaptative des questions de plus en plus complexes en fonction des faiblesses du Solveur ; et le Générateur distille la stratégie de conception de questions de l'Enseignant pour permettre une génération de curriculum évolutive et de haute fidélité. Ce système en boucle fermée produit un curriculum auto-améliorant, ne nécessitant aucune tâche ou étiquette préexistante. De manière remarquable, en partant de seulement 100 questions de départ, notre Socratic-Solver-8B obtient un gain moyen de +20,2 points de pourcentage par rapport aux méthodes de synthèse de données précédentes sur sept benchmarks de raisonnement mathématique (AMC23, AIME24-25, Olympiade, MATH-500, Minerva et GSM8K), avec des gains constants sur les modèles des séries Qwen3 et GLM4. Plus surprenant encore, les données synthétiques de Socratic-Generator-32B permettent aux LLMs étudiants d'atteindre des performances supérieures à celles d'autres LLMs commerciaux de pointe sur ces benchmarks, notamment Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 et Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.