ChatPaper.aiChatPaper

Socratic-Zero: Avvio del Ragionamento tramite Co-evoluzione di Agenti senza Dati

Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution

September 29, 2025
Autori: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) per compiti di ragionamento si basano fortemente su dataset massicci e di alta qualità, tipicamente annotati da esseri umani e quindi difficili da scalare. Sebbene la sintesi o la distillazione dei dati offrano un'alternativa promettente, i metodi esistenti faticano con una qualità dei dati incoerente e un'incapacità di adattarsi dinamicamente alle capacità in evoluzione del modello, portando a segnali di addestramento subottimali. Per affrontare queste limitazioni, introduciamo Socratic-Zero, un framework completamente autonomo che genera dati di addestramento di alta qualità a partire da esempi iniziali minimi attraverso la co-evoluzione di tre agenti: il Teacher, il Solver e il Generator. Il Solver affina continuamente il suo ragionamento apprendendo da feedback di preferenza su traiettorie sia riuscite che fallite; il Teacher crea in modo adattivo domande sempre più complesse basandosi sulle debolezze del Solver; e il Generator distilla la strategia di progettazione delle domande del Teacher per consentire una generazione scalabile e ad alta fedeltà del curriculum. Questo sistema a ciclo chiuso produce un curriculum che si auto-migliora, senza richiedere compiti o etichette preesistenti. In modo notevole, partendo da soli 100 esempi iniziali, il nostro Socratic-Solver-8B ottiene un guadagno medio di +20,2 punti percentuali rispetto ai precedenti metodi di sintesi dei dati su sette benchmark di ragionamento matematico (AMC23, AIME24-25, Olympiad, MATH-500, Minerva e GSM8K), con guadagni consistenti sia sui modelli della serie Qwen3 che GLM4. Ancora più sorprendentemente, i dati sintetici generati da Socratic-Generator-32B consentono agli LLM studente di ottenere prestazioni superiori rispetto ad altri LLM commerciali all'avanguardia (SOTA) su questi benchmark, inclusi Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 e Claude-4.1-Opus.
English
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely heavily on massive, high-quality datasets-typically human-annotated and thus difficult to scale. While data synthesis or distillation offers a promising alternative, existing methods struggle with inconsistent data quality and an inability to dynamically adapt to the evolving capabilities of the model, leading to suboptimal training signals. To address these limitations, we introduce Socratic-Zero, a fully autonomous framework that generates high-quality training data from minimal seed examples through the co-evolution of three agents: the Teacher, the Solver, and the Generator. The Solver continuously refines its reasoning by learning from preference feedback on both successful and failed trajectories; the Teacher adaptively crafts increasingly challenging questions based on the Solver's weaknesses; and the Generator distills the Teacher's question-design strategy to enable scalable, high-fidelity curriculum generation. This closed-loop system produces a self-improving curriculum-requiring no pre-existing tasks or labels. Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B achieves an average gain of +20.2 percentage points over prior data synthesis methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3 and GLM4 series models. Even more surprisingly, synthetic data from Socratic-Generator-32B enables student LLMs to achieve superior performance compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks, including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4, and Claude-4.1-Opus.
PDF171September 30, 2025