Enigmata: Schaalbaar logisch redeneren in grote taalmodellen met synthetische verifieerbare puzzels
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
May 26, 2025
Auteurs: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs), zoals OpenAI's o1 en DeepSeek's R1, blinken uit in geavanceerde redeneertaken zoals wiskunde en coderen via Reinforcement Learning met Verifieerbare Beloningen (RLVR), maar hebben nog steeds moeite met puzzels die mensen zonder domeinkennis kunnen oplossen. We introduceren Enigmata, de eerste uitgebreide suite die speciaal is ontworpen om LLMs te verbeteren met puzzelredeneervaardigheden. Het omvat 36 taken in zeven categorieën, elk met 1) een generator die onbeperkt voorbeelden produceert met instelbare moeilijkheidsgraad en 2) een op regels gebaseerde verifier voor automatische evaluatie. Dit generator-verifier ontwerp ondersteunt schaalbare, multi-task RL-training, gedetailleerde analyse en naadloze RLVR-integratie. We stellen verder Enigmata-Eval voor, een rigoureus benchmark, en ontwikkelen geoptimaliseerde multi-task RLVR-strategieën. Ons getrainde model, Qwen2.5-32B-Enigmata, overtreft consistent o3-mini-high en o1 op de puzzelredeneerbenchmarks zoals Enigmata-Eval, ARC-AGI (32,8%) en ARC-AGI 2 (0,6%). Het generaliseert ook goed naar out-of-domain puzzelbenchmarks en wiskundig redeneren, met weinig multi-task trade-off. Wanneer getraind op grotere modellen zoals Seed1.5-Thinking (20B geactiveerde parameters en 200B totale parameters), versterken puzzelgegevens van Enigmata verder de SoTA-prestaties op geavanceerde wiskunde- en STEM-redeneertaken zoals AIME (2024-2025), BeyondAIME en GPQA (Diamond), wat de mooie generalisatievoordelen van Enigmata laat zien. Dit werk biedt een uniform, controleerbaar raamwerk voor het bevorderen van logisch redeneren in LLMs. Bronnen van dit werk zijn te vinden op https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at
advanced reasoning tasks like math and coding via Reinforcement Learning with
Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans
without domain knowledge. We introduce Enigmata, the first comprehensive suite
tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks
across seven categories, each with 1) a generator that produces unlimited
examples with controllable difficulty and 2) a rule-based verifier for
automatic evaluation. This generator-verifier design supports scalable,
multi-task RL training, fine-grained analysis, and seamless RLVR integration.
We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized
multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata,
consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks
like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes
well to out-of-domain puzzle benchmarks and mathematical reasoning, with little
multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking
(20B activated parameters and 200B total parameters), puzzle data from Enigmata
further boosts SoTA performance on advanced math and STEM reasoning tasks such
as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization
benefits of Enigmata. This work offers a unified, controllable framework for
advancing logical reasoning in LLMs. Resources of this work can be found at
https://seed-enigmata.github.io.