SynLogic: Het Synthetiseren van Verifieerbare Redeneerdata op Schaal voor het Leren van Logisch Redeneren en Meer
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
May 26, 2025
Auteurs: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI
Samenvatting
Recente ontwikkelingen zoals OpenAI-o1 en DeepSeek R1 hebben het potentieel van Reinforcement Learning (RL) aangetoond om de redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Hoewel open-source replicatie-inspanningen zich voornamelijk hebben gericht op wiskundige en programmeerdomeinen, blijven methoden en bronnen voor het ontwikkelen van algemene redeneervaardigheden onderbelicht. Deze kloof is deels te wijten aan de uitdaging om diverse en verifieerbare redeneergegevens te verzamelen die geschikt zijn voor RL. Wij veronderstellen dat logisch redeneren cruciaal is voor het ontwikkelen van algemene redeneervaardigheden, aangezien logica een fundamenteel bouwsteen van redeneren vormt. In dit werk presenteren we SynLogic, een data-syntheseframework en dataset die op grote schaal diverse logische redeneergegevens genereert, met 35 verschillende logische redeneertaken. De SynLogic-aanpak maakt gecontroleerde synthese van gegevens mogelijk met instelbare moeilijkheidsgraad en hoeveelheid. Belangrijk is dat alle voorbeelden kunnen worden geverifieerd door eenvoudige regels, waardoor ze ideaal geschikt zijn voor RL met verifieerbare beloningen. In onze experimenten valideren we de effectiviteit van RL-training op de SynLogic-dataset op basis van 7B- en 32B-modellen. SynLogic leidt tot state-of-the-art prestaties in logisch redeneren onder open-source datasets, waarbij DeepSeek-R1-Distill-Qwen-32B met 6 punten wordt overtroffen op BBEH. Bovendien verbetert het mengen van SynLogic-gegevens met wiskundige en programmeertaken de trainings efficiëntie van deze domeinen en versterkt het de redeneergeneralistatie aanzienlijk. Opmerkelijk is dat ons gemengde trainingsmodel DeepSeek-R1-Zero-Qwen-32B overtreft op meerdere benchmarks. Deze bevindingen positioneren SynLogic als een waardevolle bron voor het bevorderen van de bredere redeneervaardigheden van LLMs. We open-sourcen zowel de data-synthesepipeline als de SynLogic-dataset op https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the
potential of Reinforcement Learning (RL) to enhance reasoning abilities in
Large Language Models (LLMs). While open-source replication efforts have
primarily focused on mathematical and coding domains, methods and resources for
developing general reasoning capabilities remain underexplored. This gap is
partly due to the challenge of collecting diverse and verifiable reasoning data
suitable for RL. We hypothesize that logical reasoning is critical for
developing general reasoning capabilities, as logic forms a fundamental
building block of reasoning. In this work, we present SynLogic, a data
synthesis framework and dataset that generates diverse logical reasoning data
at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic
approach enables controlled synthesis of data with adjustable difficulty and
quantity. Importantly, all examples can be verified by simple rules, making
them ideally suited for RL with verifiable rewards. In our experiments, we
validate the effectiveness of RL training on the SynLogic dataset based on 7B
and 32B models. SynLogic leads to state-of-the-art logical reasoning
performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B
by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and
coding tasks improves the training efficiency of these domains and
significantly enhances reasoning generalization. Notably, our mixed training
model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These
findings position SynLogic as a valuable resource for advancing the broader
reasoning capabilities of LLMs. We open-source both the data synthesis pipeline
and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.