ChatPaper.aiChatPaper

SynLogic: Synthese verifizierbarer Argumentationsdaten im großen Maßstab zum Erlernen logischen Denkens und darüber hinaus

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

May 26, 2025
Autoren: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI

Zusammenfassung

Jüngste Fortschritte wie OpenAI-o1 und DeepSeek R1 haben das Potenzial von Reinforcement Learning (RL) zur Verbesserung der Denkfähigkeiten in großen Sprachmodellen (LLMs) aufgezeigt. Während sich Open-Source-Replikationsbemühungen hauptsächlich auf mathematische und Programmierdomänen konzentriert haben, bleiben Methoden und Ressourcen zur Entwicklung allgemeiner Denkfähigkeiten weitgehend unerforscht. Diese Lücke ist teilweise auf die Herausforderung zurückzuführen, diverse und überprüfbare Denkdaten zu sammeln, die für RL geeignet sind. Wir stellen die Hypothese auf, dass logisches Denken entscheidend für die Entwicklung allgemeiner Denkfähigkeiten ist, da Logik ein grundlegender Baustein des Denkens darstellt. In dieser Arbeit präsentieren wir SynLogic, ein Daten-Synthese-Framework und einen Datensatz, der diverse logische Denkdaten in großem Umfang erzeugt und 35 verschiedene logische Denkaufgaben umfasst. Der SynLogic-Ansatz ermöglicht die kontrollierte Synthese von Daten mit einstellbarem Schwierigkeitsgrad und Menge. Wichtig ist, dass alle Beispiele durch einfache Regeln überprüft werden können, was sie ideal für RL mit überprüfbaren Belohnungen macht. In unseren Experimenten validieren wir die Wirksamkeit des RL-Trainings auf dem SynLogic-Datensatz basierend auf 7B- und 32B-Modellen. SynLogic führt zu einer Spitzenleistung im logischen Denken unter Open-Source-Datensätzen und übertrifft DeepSeek-R1-Distill-Qwen-32B um 6 Punkte auf BBEH. Darüber hinaus verbessert die Mischung von SynLogic-Daten mit mathematischen und Programmieraufgaben die Trainings effizienz dieser Domänen und steigert die Denkverallgemeinerung erheblich. Bemerkenswerterweise übertrifft unser gemischtes Trainingsmodell DeepSeek-R1-Zero-Qwen-32B in mehreren Benchmarks. Diese Ergebnisse positionieren SynLogic als wertvolle Ressource zur Weiterentwicklung der umfassenderen Denkfähigkeiten von LLMs. Wir stellen sowohl die Daten-Synthese-Pipeline als auch den SynLogic-Datensatz unter https://github.com/MiniMax-AI/SynLogic als Open Source zur Verfügung.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.

Summary

AI-Generated Summary

PDF622May 28, 2025