ソクラテス・ゼロ:データフリーなエージェント共進化による推論能力のブートストラップ
Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
September 29, 2025
著者: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI
要旨
大規模言語モデル(LLM)の推論タスクにおける最近のブレークスルーは、大規模で高品質なデータセットに大きく依存しています。これらのデータセットは通常、人間によるアノテーションが必要であり、スケーリングが困難です。データ合成や蒸留は有望な代替手段として考えられますが、既存の手法ではデータ品質の一貫性が保てず、モデルの進化する能力に動的に適応できないため、最適なトレーニング信号が得られないという課題があります。これらの制限を解決するため、我々はSocratic-Zeroを導入しました。これは、最小限のシード例から高品質なトレーニングデータを生成する完全自律型のフレームワークで、3つのエージェント(Teacher、Solver、Generator)の共進化を通じて実現されます。Solverは、成功した軌跡と失敗した軌跡の両方に対する選好フィードバックから学習し、推論を継続的に洗練させます。Teacherは、Solverの弱点に基づいて、次第に難易度の高い質問を適応的に作成します。そして、GeneratorはTeacherの質問設計戦略を蒸留し、スケーラブルで高忠実度のカリキュラム生成を可能にします。この閉ループシステムは、既存のタスクやラベルを必要とせず、自己改善型のカリキュラムを生成します。驚くべきことに、わずか100のシード質問から始めた我々のSocratic-Solver-8Bは、7つの数学的推論ベンチマーク(AMC23、AIME24-25、Olympiad、MATH-500、Minerva、GSM8K)において、従来のデータ合成手法に対して平均+20.2ポイントの向上を達成し、Qwen3およびGLM4シリーズモデルでも一貫した向上を示しました。さらに驚くべきことに、Socratic-Generator-32Bから生成された合成データは、これらのベンチマークにおいて、Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4、Claude-4.1-Opusなどの他の最先端(SOTA)商用LLMを上回る性能を学生LLMに達成させました。
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely
heavily on massive, high-quality datasets-typically human-annotated and thus
difficult to scale. While data synthesis or distillation offers a promising
alternative, existing methods struggle with inconsistent data quality and an
inability to dynamically adapt to the evolving capabilities of the model,
leading to suboptimal training signals. To address these limitations, we
introduce Socratic-Zero, a fully autonomous framework that generates
high-quality training data from minimal seed examples through the co-evolution
of three agents: the Teacher, the Solver, and the Generator. The Solver
continuously refines its reasoning by learning from preference feedback on both
successful and failed trajectories; the Teacher adaptively crafts increasingly
challenging questions based on the Solver's weaknesses; and the Generator
distills the Teacher's question-design strategy to enable scalable,
high-fidelity curriculum generation. This closed-loop system produces a
self-improving curriculum-requiring no pre-existing tasks or labels.
Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B
achieves an average gain of +20.2 percentage points over prior data synthesis
methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25,
Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3
and GLM4 series models. Even more surprisingly, synthetic data from
Socratic-Generator-32B enables student LLMs to achieve superior performance
compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks,
including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4,
and Claude-4.1-Opus.