Enigmata: Skalierung des logischen Denkens in großen Sprachmodellen mit synthetischen, überprüfbaren Rätseln
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
May 26, 2025
Autoren: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) wie OpenAI's o1 und DeepSeek's R1 übertreffen sich bei fortgeschrittenen Denkaufgaben wie Mathematik und Programmierung durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), haben jedoch noch Schwierigkeiten mit Rätseln, die von Menschen ohne Domänenwissen gelöst werden können. Wir stellen Enigmata vor, die erste umfassende Suite, die speziell zur Verbesserung der Rätsel-Fähigkeiten von LLMs entwickelt wurde. Sie umfasst 36 Aufgaben in sieben Kategorien, jede mit 1) einem Generator, der unbegrenzte Beispiele mit kontrollierbarem Schwierigkeitsgrad erzeugt, und 2) einem regelbasierten Verifizierer für die automatische Bewertung. Dieses Generator-Verifizierer-Design unterstützt skalierbares, multi-task RL-Training, detaillierte Analysen und nahtlose RLVR-Integration. Wir schlagen außerdem Enigmata-Eval vor, einen rigorosen Benchmark, und entwickeln optimierte multi-task RLVR-Strategien. Unser trainiertes Modell, Qwen2.5-32B-Enigmata, übertrifft konsequent o3-mini-high und o1 bei Rätsel-Benchmarks wie Enigmata-Eval, ARC-AGI (32,8%) und ARC-AGI 2 (0,6%). Es generalisiert auch gut auf domänenübergreifende Rätsel-Benchmarks und mathematisches Denken, mit geringen Kompromissen bei der Multi-Tasking-Fähigkeit. Wenn es auf größeren Modellen wie Seed1.5-Thinking (20B aktivierte Parameter und 200B Gesamtparameter) trainiert wird, steigern die Rätseldaten von Enigmata die Spitzenleistung bei fortgeschrittenen mathematischen und STEM-Denkaufgaben wie AIME (2024-2025), BeyondAIME und GPQA (Diamond), was die guten Generalisierungsvorteile von Enigmata zeigt. Diese Arbeit bietet einen einheitlichen, kontrollierbaren Rahmen zur Förderung des logischen Denkens in LLMs. Die Ressourcen dieser Arbeit finden Sie unter https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at
advanced reasoning tasks like math and coding via Reinforcement Learning with
Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans
without domain knowledge. We introduce Enigmata, the first comprehensive suite
tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks
across seven categories, each with 1) a generator that produces unlimited
examples with controllable difficulty and 2) a rule-based verifier for
automatic evaluation. This generator-verifier design supports scalable,
multi-task RL training, fine-grained analysis, and seamless RLVR integration.
We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized
multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata,
consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks
like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes
well to out-of-domain puzzle benchmarks and mathematical reasoning, with little
multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking
(20B activated parameters and 200B total parameters), puzzle data from Enigmata
further boosts SoTA performance on advanced math and STEM reasoning tasks such
as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization
benefits of Enigmata. This work offers a unified, controllable framework for
advancing logical reasoning in LLMs. Resources of this work can be found at
https://seed-enigmata.github.io.Summary
AI-Generated Summary