ChatPaper.aiChatPaper

Socratic-Zero: Развитие способности к рассуждению через совместную эволюцию агентов без использования данных

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution

September 29, 2025
Авторы: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI

Аннотация

Недавние прорывы в области крупных языковых моделей (LLM) на задачах логического рассуждения в значительной степени зависят от массивных, высококачественных наборов данных, которые обычно аннотируются вручную и, следовательно, сложно масштабируются. Хотя синтез или дистилляция данных предлагают многообещающую альтернативу, существующие методы сталкиваются с проблемами нестабильного качества данных и неспособностью динамически адаптироваться к развивающимся возможностям модели, что приводит к субоптимальным обучающим сигналам. Для устранения этих ограничений мы представляем Socratic-Zero — полностью автономную систему, которая генерирует высококачественные обучающие данные из минимального количества начальных примеров за счет коэволюции трех агентов: Учителя, Решателя и Генератора. Решатель непрерывно совершенствует свои рассуждения, обучаясь на основе обратной связи по предпочтениям как для успешных, так и для неудачных траекторий; Учитель адаптивно создает всё более сложные вопросы, основываясь на слабостях Решателя; а Генератор дистиллирует стратегию Учителя по разработке вопросов, что позволяет масштабировать генерацию высококачественных учебных программ. Эта замкнутая система создает самоулучшающуюся учебную программу, не требующую предварительных задач или меток. Примечательно, что, начиная всего со 100 начальных вопросов, наш Socratic-Solver-8B демонстрирует средний прирост на +20,2 процентных пункта по сравнению с предыдущими методами синтеза данных на семи тестах математического рассуждения (AMC23, AIME24-25, Olympiad, MATH-500, Minerva и GSM8K), с устойчивым улучшением как для моделей серии Qwen3, так и GLM4. Ещё более удивительно, что синтетические данные от Socratic-Generator-32B позволяют студенческим LLM достигать превосходной производительности по сравнению с другими коммерческими LLM мирового уровня (SOTA) на этих тестах, включая Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 и Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely heavily on massive, high-quality datasets-typically human-annotated and thus difficult to scale. While data synthesis or distillation offers a promising alternative, existing methods struggle with inconsistent data quality and an inability to dynamically adapt to the evolving capabilities of the model, leading to suboptimal training signals. To address these limitations, we introduce Socratic-Zero, a fully autonomous framework that generates high-quality training data from minimal seed examples through the co-evolution of three agents: the Teacher, the Solver, and the Generator. The Solver continuously refines its reasoning by learning from preference feedback on both successful and failed trajectories; the Teacher adaptively crafts increasingly challenging questions based on the Solver's weaknesses; and the Generator distills the Teacher's question-design strategy to enable scalable, high-fidelity curriculum generation. This closed-loop system produces a self-improving curriculum-requiring no pre-existing tasks or labels. Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B achieves an average gain of +20.2 percentage points over prior data synthesis methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3 and GLM4 series models. Even more surprisingly, synthetic data from Socratic-Generator-32B enables student LLMs to achieve superior performance compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks, including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4, and Claude-4.1-Opus.
PDF11September 30, 2025