SynLogic: Síntese de Dados de Raciocínio Verificáveis em Escala para Aprendizado de Raciocínio Lógico e Além
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
May 26, 2025
Autores: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI
Resumo
Avanços recentes, como o OpenAI-o1 e o DeepSeek R1, demonstraram o potencial do Aprendizado por Reforço (RL) para aprimorar as habilidades de raciocínio em Modelos de Linguagem de Grande Escala (LLMs). Embora os esforços de replicação de código aberto tenham se concentrado principalmente em domínios matemáticos e de codificação, os métodos e recursos para desenvolver capacidades gerais de raciocínio permanecem pouco explorados. Essa lacuna se deve, em parte, ao desafio de coletar dados de raciocínio diversos e verificáveis adequados para RL. Nossa hipótese é que o raciocínio lógico é fundamental para o desenvolvimento de capacidades gerais de raciocínio, uma vez que a lógica forma um bloco fundamental do raciocínio. Neste trabalho, apresentamos o SynLogic, uma estrutura de síntese de dados e um conjunto de dados que gera dados de raciocínio lógico diversos em escala, abrangendo 35 tarefas distintas de raciocínio lógico. A abordagem SynLogic permite a síntese controlada de dados com dificuldade e quantidade ajustáveis. Importante destacar que todos os exemplos podem ser verificados por regras simples, tornando-os idealmente adequados para RL com recompensas verificáveis. Em nossos experimentos, validamos a eficácia do treinamento de RL no conjunto de dados SynLogic com base em modelos de 7B e 32B. O SynLogic alcança desempenho de ponta em raciocínio lógico entre os conjuntos de dados de código aberto, superando o DeepSeek-R1-Distill-Qwen-32B em 6 pontos no BBEH. Além disso, a mistura de dados do SynLogic com tarefas matemáticas e de codificação melhora a eficiência do treinamento nesses domínios e aprimora significativamente a generalização do raciocínio. Notavelmente, nosso modelo de treinamento misto supera o DeepSeek-R1-Zero-Qwen-32B em vários benchmarks. Esses achados posicionam o SynLogic como um recurso valioso para avançar as capacidades gerais de raciocínio dos LLMs. Disponibilizamos tanto o pipeline de síntese de dados quanto o conjunto de dados SynLogic em código aberto em https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the
potential of Reinforcement Learning (RL) to enhance reasoning abilities in
Large Language Models (LLMs). While open-source replication efforts have
primarily focused on mathematical and coding domains, methods and resources for
developing general reasoning capabilities remain underexplored. This gap is
partly due to the challenge of collecting diverse and verifiable reasoning data
suitable for RL. We hypothesize that logical reasoning is critical for
developing general reasoning capabilities, as logic forms a fundamental
building block of reasoning. In this work, we present SynLogic, a data
synthesis framework and dataset that generates diverse logical reasoning data
at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic
approach enables controlled synthesis of data with adjustable difficulty and
quantity. Importantly, all examples can be verified by simple rules, making
them ideally suited for RL with verifiable rewards. In our experiments, we
validate the effectiveness of RL training on the SynLogic dataset based on 7B
and 32B models. SynLogic leads to state-of-the-art logical reasoning
performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B
by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and
coding tasks improves the training efficiency of these domains and
significantly enhances reasoning generalization. Notably, our mixed training
model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These
findings position SynLogic as a valuable resource for advancing the broader
reasoning capabilities of LLMs. We open-source both the data synthesis pipeline
and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.