SynLogic: Синтез верифицируемых данных для обучения логическим рассуждениям и не только в масштабе
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
May 26, 2025
Авторы: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He
cs.AI
Аннотация
Недавние достижения, такие как OpenAI-o1 и DeepSeek R1, продемонстрировали потенциал обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей к рассуждению в больших языковых моделях (Large Language Models, LLMs). Хотя усилия по воспроизведению в открытом исходном коде в основном сосредоточены на математических и программистских областях, методы и ресурсы для развития общих способностей к рассуждению остаются недостаточно изученными. Этот пробел частично связан с трудностью сбора разнообразных и проверяемых данных для рассуждений, подходящих для RL. Мы предполагаем, что логическое рассуждение критически важно для развития общих способностей к рассуждению, поскольку логика является фундаментальным строительным блоком рассуждений. В данной работе мы представляем SynLogic — фреймворк для синтеза данных и набор данных, который генерирует разнообразные логические задачи для рассуждений в масштабе, охватывая 35 различных логических задач. Подход SynLogic позволяет контролируемо синтезировать данные с регулируемой сложностью и количеством. Важно, что все примеры могут быть проверены с помощью простых правил, что делает их идеально подходящими для RL с проверяемыми наградами. В наших экспериментах мы подтверждаем эффективность обучения RL на наборе данных SynLogic на основе моделей с 7B и 32B параметрами. SynLogic демонстрирует наилучшие результаты в логическом рассуждении среди открытых наборов данных, превосходя DeepSeek-R1-Distill-Qwen-32B на 6 баллов по метрике BBEH. Более того, смешивание данных SynLogic с математическими и программистскими задачами повышает эффективность обучения в этих областях и значительно улучшает обобщение рассуждений. Примечательно, что наша модель, обученная на смешанных данных, превосходит DeepSeek-R1-Zero-Qwen-32B по нескольким бенчмаркам. Эти результаты позиционируют SynLogic как ценный ресурс для продвижения более широких способностей к рассуждению в LLMs. Мы открываем исходный код как для конвейера синтеза данных, так и для набора данных SynLogic по адресу https://github.com/MiniMax-AI/SynLogic.
English
Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the
potential of Reinforcement Learning (RL) to enhance reasoning abilities in
Large Language Models (LLMs). While open-source replication efforts have
primarily focused on mathematical and coding domains, methods and resources for
developing general reasoning capabilities remain underexplored. This gap is
partly due to the challenge of collecting diverse and verifiable reasoning data
suitable for RL. We hypothesize that logical reasoning is critical for
developing general reasoning capabilities, as logic forms a fundamental
building block of reasoning. In this work, we present SynLogic, a data
synthesis framework and dataset that generates diverse logical reasoning data
at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic
approach enables controlled synthesis of data with adjustable difficulty and
quantity. Importantly, all examples can be verified by simple rules, making
them ideally suited for RL with verifiable rewards. In our experiments, we
validate the effectiveness of RL training on the SynLogic dataset based on 7B
and 32B models. SynLogic leads to state-of-the-art logical reasoning
performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B
by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and
coding tasks improves the training efficiency of these domains and
significantly enhances reasoning generalization. Notably, our mixed training
model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These
findings position SynLogic as a valuable resource for advancing the broader
reasoning capabilities of LLMs. We open-source both the data synthesis pipeline
and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.Summary
AI-Generated Summary