Enigmata: 検証可能な合成パズルを用いた大規模言語モデルにおける論理的推論のスケーリング
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
May 26, 2025
著者: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI
要旨
OpenAIのo1やDeepSeekのR1などの大規模言語モデル(LLMs)は、検証可能な報酬を用いた強化学習(RLVR)を通じて、数学やコーディングなどの高度な推論タスクで優れた性能を発揮しますが、ドメイン知識なしで人間が解けるパズルには依然として苦戦しています。本論文では、LLMのパズル推論能力を向上させるために初めて設計された包括的なスイート「Enigmata」を紹介します。Enigmataは7つのカテゴリーにわたる36のタスクを含み、各タスクには1)難易度を制御可能な無制限の例を生成するジェネレータと、2)自動評価のためのルールベースの検証器が備わっています。このジェネレータ-検証器の設計により、スケーラブルなマルチタスク強化学習トレーニング、詳細な分析、シームレスなRLVR統合が可能となります。さらに、厳密なベンチマーク「Enigmata-Eval」を提案し、最適化されたマルチタスクRLVR戦略を開発しました。我々がトレーニングしたモデル「Qwen2.5-32B-Enigmata」は、Enigmata-Eval、ARC-AGI(32.8%)、ARC-AGI 2(0.6%)などのパズル推論ベンチマークで、o3-mini-highやo1を一貫して上回りました。また、ドメイン外のパズルベンチマークや数学的推論にも良好な汎化性能を示し、マルチタスキングのトレードオフもほとんどありませんでした。Seed1.5-Thinking(200億の総パラメータのうち200億が活性化)のような大規模モデルでEnigmataのパズルデータをトレーニングすると、AIME(2024-2025)、BeyondAIME、GPQA(Diamond)などの高度な数学やSTEM推論タスクにおいて、SoTA性能がさらに向上し、Enigmataの優れた汎化効果が確認されました。本論文は、LLMの論理的推論を進めるための統一された制御可能なフレームワークを提供します。本論文のリソースはhttps://seed-enigmata.github.ioで公開されています。
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at
advanced reasoning tasks like math and coding via Reinforcement Learning with
Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans
without domain knowledge. We introduce Enigmata, the first comprehensive suite
tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks
across seven categories, each with 1) a generator that produces unlimited
examples with controllable difficulty and 2) a rule-based verifier for
automatic evaluation. This generator-verifier design supports scalable,
multi-task RL training, fine-grained analysis, and seamless RLVR integration.
We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized
multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata,
consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks
like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes
well to out-of-domain puzzle benchmarks and mathematical reasoning, with little
multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking
(20B activated parameters and 200B total parameters), puzzle data from Enigmata
further boosts SoTA performance on advanced math and STEM reasoning tasks such
as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization
benefits of Enigmata. This work offers a unified, controllable framework for
advancing logical reasoning in LLMs. Resources of this work can be found at
https://seed-enigmata.github.io.Summary
AI-Generated Summary