SynLogic: Sintesi su larga scala di dati di ragionamento verificabili per l'apprendimento del ragionamento logico e oltre
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
May 26, 2025
Autori: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI
Abstract
I recenti progressi come OpenAI-o1 e DeepSeek R1 hanno dimostrato il potenziale del Reinforcement Learning (RL) nel migliorare le capacità di ragionamento nei Large Language Models (LLMs). Sebbene gli sforzi di replicazione open-source si siano concentrati principalmente sui domini matematici e di programmazione, i metodi e le risorse per sviluppare capacità di ragionamento generale rimangono poco esplorati. Questa lacuna è in parte dovuta alla difficoltà di raccogliere dati di ragionamento diversificati e verificabili adatti all'RL. Ipotesizziamo che il ragionamento logico sia fondamentale per sviluppare capacità di ragionamento generale, poiché la logica costituisce un blocco fondamentale del ragionamento. In questo lavoro, presentiamo SynLogic, un framework di sintesi dati e un dataset che genera dati di ragionamento logico diversificati su larga scala, comprendendo 35 diverse attività di ragionamento logico. L'approccio SynLogic consente la sintesi controllata di dati con difficoltà e quantità regolabili. Importante, tutti gli esempi possono essere verificati da semplici regole, rendendoli ideali per l'RL con ricompense verificabili. Nei nostri esperimenti, validiamo l'efficacia dell'addestramento RL sul dataset SynLogic basato su modelli da 7B e 32B. SynLogic porta a prestazioni di ragionamento logico all'avanguardia tra i dataset open-source, superando DeepSeek-R1-Distill-Qwen-32B di 6 punti su BBEH. Inoltre, la miscelazione dei dati SynLogic con attività matematiche e di programmazione migliora l'efficienza dell'addestramento in questi domini e migliora significativamente la generalizzazione del ragionamento. In particolare, il nostro modello di addestramento misto supera DeepSeek-R1-Zero-Qwen-32B su più benchmark. Questi risultati posizionano SynLogic come una risorsa preziosa per avanzare le capacità di ragionamento più ampie degli LLMs. Rendiamo open-source sia la pipeline di sintesi dati che il dataset SynLogic su https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the
potential of Reinforcement Learning (RL) to enhance reasoning abilities in
Large Language Models (LLMs). While open-source replication efforts have
primarily focused on mathematical and coding domains, methods and resources for
developing general reasoning capabilities remain underexplored. This gap is
partly due to the challenge of collecting diverse and verifiable reasoning data
suitable for RL. We hypothesize that logical reasoning is critical for
developing general reasoning capabilities, as logic forms a fundamental
building block of reasoning. In this work, we present SynLogic, a data
synthesis framework and dataset that generates diverse logical reasoning data
at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic
approach enables controlled synthesis of data with adjustable difficulty and
quantity. Importantly, all examples can be verified by simple rules, making
them ideally suited for RL with verifiable rewards. In our experiments, we
validate the effectiveness of RL training on the SynLogic dataset based on 7B
and 32B models. SynLogic leads to state-of-the-art logical reasoning
performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B
by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and
coding tasks improves the training efficiency of these domains and
significantly enhances reasoning generalization. Notably, our mixed training
model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These
findings position SynLogic as a valuable resource for advancing the broader
reasoning capabilities of LLMs. We open-source both the data synthesis pipeline
and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.