ChatPaper.aiChatPaper

SynLogic : Synthèse à grande échelle de données de raisonnement vérifiables pour l'apprentissage du raisonnement logique et au-delà

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

May 26, 2025
Auteurs: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI

Résumé

Les récentes avancées telles qu'OpenAI-o1 et DeepSeek R1 ont démontré le potentiel de l'apprentissage par renforcement (Reinforcement Learning, RL) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs). Bien que les efforts de réplication open-source se soient principalement concentrés sur les domaines mathématiques et de programmation, les méthodes et ressources pour développer des capacités de raisonnement général restent sous-explorées. Cet écart est en partie dû à la difficulté de collecter des données de raisonnement diversifiées et vérifiables adaptées au RL. Nous émettons l'hypothèse que le raisonnement logique est essentiel pour développer des capacités de raisonnement général, car la logique constitue un élément fondamental du raisonnement. Dans ce travail, nous présentons SynLogic, un cadre de synthèse de données et un ensemble de données qui génèrent à grande échelle des données de raisonnement logique diversifiées, couvrant 35 tâches de raisonnement logique variées. L'approche SynLogic permet une synthèse contrôlée de données avec une difficulté et une quantité ajustables. Fait important, tous les exemples peuvent être vérifiés par des règles simples, ce qui les rend idéalement adaptés au RL avec des récompenses vérifiables. Dans nos expériences, nous validons l'efficacité de l'entraînement par RL sur l'ensemble de données SynLogic à l'aide de modèles de 7B et 32B. SynLogic permet d'atteindre des performances de pointe en raisonnement logique parmi les ensembles de données open-source, surpassant DeepSeek-R1-Distill-Qwen-32B de 6 points sur BBEH. De plus, le mélange des données SynLogic avec des tâches mathématiques et de programmation améliore l'efficacité de l'entraînement dans ces domaines et renforce significativement la généralisation du raisonnement. Notamment, notre modèle d'entraînement mixte surpasse DeepSeek-R1-Zero-Qwen-32B sur plusieurs benchmarks. Ces résultats positionnent SynLogic comme une ressource précieuse pour faire progresser les capacités de raisonnement général des LLMs. Nous mettons à disposition en open-source à la fois le pipeline de synthèse de données et l'ensemble de données SynLogic à l'adresse https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.

Summary

AI-Generated Summary

PDF622May 28, 2025