Enigmata: Scalabilità del Ragionamento Logico nei Modelli Linguistici di Grande Dimensione attraverso Enigmi Sintetici Verificabili
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
May 26, 2025
Autori: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI
Abstract
I Large Language Model (LLM), come OpenAI's o1 e DeepSeek's R1, eccellono in compiti di ragionamento avanzato come matematica e programmazione grazie al Reinforcement Learning con Ricompense Verificabili (RLVR), ma continuano a lottare con enigmi risolvibili da esseri umani senza conoscenze specifiche del dominio. Introduciamo Enigmata, la prima suite completa progettata per migliorare le capacità di ragionamento enigmistico degli LLM. Include 36 task suddivisi in sette categorie, ciascuno con 1) un generatore che produce esempi illimitati con difficoltà controllabile e 2) un verificatore basato su regole per la valutazione automatica. Questo design generatore-verificatore supporta un addestramento RL scalabile e multi-task, analisi granulari e un'integrazione senza soluzione di continuità con RLVR. Proponiamo inoltre Enigmata-Eval, un benchmark rigoroso, e sviluppiamo strategie RLVR multi-task ottimizzate. Il nostro modello addestrato, Qwen2.5-32B-Enigmata, supera costantemente o3-mini-high e o1 sui benchmark di ragionamento enigmistico come Enigmata-Eval, ARC-AGI (32,8%) e ARC-AGI 2 (0,6%). Generalizza bene anche su benchmark enigmistici fuori dominio e sul ragionamento matematico, con un minimo compromesso multi-task. Quando addestrato su modelli più grandi come Seed1.5-Thinking (20 miliardi di parametri attivati e 200 miliardi di parametri totali), i dati enigmistici di Enigmata migliorano ulteriormente le prestazioni SoTA su compiti avanzati di matematica e ragionamento STEM come AIME (2024-2025), BeyondAIME e GPQA (Diamond), dimostrando i vantaggi di generalizzazione di Enigmata. Questo lavoro offre un framework unificato e controllabile per avanzare il ragionamento logico negli LLM. Le risorse di questo lavoro sono disponibili su https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at
advanced reasoning tasks like math and coding via Reinforcement Learning with
Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans
without domain knowledge. We introduce Enigmata, the first comprehensive suite
tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks
across seven categories, each with 1) a generator that produces unlimited
examples with controllable difficulty and 2) a rule-based verifier for
automatic evaluation. This generator-verifier design supports scalable,
multi-task RL training, fine-grained analysis, and seamless RLVR integration.
We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized
multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata,
consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks
like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes
well to out-of-domain puzzle benchmarks and mathematical reasoning, with little
multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking
(20B activated parameters and 200B total parameters), puzzle data from Enigmata
further boosts SoTA performance on advanced math and STEM reasoning tasks such
as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization
benefits of Enigmata. This work offers a unified, controllable framework for
advancing logical reasoning in LLMs. Resources of this work can be found at
https://seed-enigmata.github.io.