ChatPaper.aiChatPaper

SynLogic: Síntesis de Datos de Razonamiento Verificables a Escala para el Aprendizaje de Razonamiento Lógico y Más Allá

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

May 26, 2025
Autores: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI

Resumen

Los recientes avances como OpenAI-o1 y DeepSeek R1 han demostrado el potencial del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para mejorar las habilidades de razonamiento en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Si bien los esfuerzos de replicación de código abierto se han centrado principalmente en dominios matemáticos y de programación, los métodos y recursos para desarrollar capacidades de razonamiento general siguen siendo poco explorados. Esta brecha se debe en parte al desafío de recopilar datos de razonamiento diversos y verificables adecuados para RL. Planteamos la hipótesis de que el razonamiento lógico es fundamental para desarrollar capacidades de razonamiento general, ya que la lógica constituye un bloque básico esencial del razonamiento. En este trabajo, presentamos SynLogic, un marco de síntesis de datos y un conjunto de datos que genera datos de razonamiento lógico diversos a gran escala, abarcando 35 tareas de razonamiento lógico distintas. El enfoque de SynLogic permite la síntesis controlada de datos con dificultad y cantidad ajustables. Es importante destacar que todos los ejemplos pueden verificarse mediante reglas simples, lo que los hace ideales para RL con recompensas verificables. En nuestros experimentos, validamos la efectividad del entrenamiento de RL en el conjunto de datos SynLogic utilizando modelos de 7B y 32B. SynLogic logra un rendimiento de razonamiento lógico de vanguardia entre los conjuntos de datos de código abierto, superando a DeepSeek-R1-Distill-Qwen-32B por 6 puntos en BBEH. Además, la mezcla de datos de SynLogic con tareas matemáticas y de programación mejora la eficiencia del entrenamiento en estos dominios y aumenta significativamente la generalización del razonamiento. Cabe destacar que nuestro modelo de entrenamiento mixto supera a DeepSeek-R1-Zero-Qwen-32B en múltiples benchmarks. Estos hallazgos posicionan a SynLogic como un recurso valioso para avanzar en las capacidades de razonamiento más amplias de los LLMs. Hemos liberado tanto la pipeline de síntesis de datos como el conjunto de datos SynLogic en https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.

Summary

AI-Generated Summary

PDF622May 28, 2025