Enigmata: Escalando el razonamiento lógico en modelos de lenguaje a gran escala con rompecabezas sintéticos verificables
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
May 26, 2025
Autores: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés), como el o1 de OpenAI y el R1 de DeepSeek, destacan en tareas de razonamiento avanzado como matemáticas y codificación mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés), pero aún tienen dificultades con acertijos que los humanos pueden resolver sin conocimiento específico del dominio. Presentamos Enigmata, el primer conjunto integral diseñado para mejorar las habilidades de razonamiento de acertijos en LLMs. Incluye 36 tareas en siete categorías, cada una con 1) un generador que produce ejemplos ilimitados con dificultad controlable y 2) un verificador basado en reglas para evaluación automática. Este diseño generador-verificador permite un entrenamiento RL escalable y multitarea, análisis detallado e integración fluida de RLVR. Además, proponemos Enigmata-Eval, un punto de referencia riguroso, y desarrollamos estrategias optimizadas de RLVR multitarea. Nuestro modelo entrenado, Qwen2.5-32B-Enigmata, supera consistentemente a o3-mini-high y o1 en puntos de referencia de razonamiento de acertijos como Enigmata-Eval, ARC-AGI (32.8%) y ARC-AGI 2 (0.6%). También generaliza bien a puntos de referencia de acertijos fuera del dominio y razonamiento matemático, con un mínimo compromiso multitarea. Cuando se entrena en modelos más grandes como Seed1.5-Thinking (20 mil millones de parámetros activados y 200 mil millones de parámetros totales), los datos de acertijos de Enigmata mejoran aún más el rendimiento de vanguardia en tareas avanzadas de matemáticas y razonamiento STEM como AIME (2024-2025), BeyondAIME y GPQA (Diamond), mostrando los beneficios de generalización de Enigmata. Este trabajo ofrece un marco unificado y controlable para avanzar en el razonamiento lógico en LLMs. Los recursos de este trabajo se pueden encontrar en https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at
advanced reasoning tasks like math and coding via Reinforcement Learning with
Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans
without domain knowledge. We introduce Enigmata, the first comprehensive suite
tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks
across seven categories, each with 1) a generator that produces unlimited
examples with controllable difficulty and 2) a rule-based verifier for
automatic evaluation. This generator-verifier design supports scalable,
multi-task RL training, fine-grained analysis, and seamless RLVR integration.
We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized
multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata,
consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks
like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes
well to out-of-domain puzzle benchmarks and mathematical reasoning, with little
multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking
(20B activated parameters and 200B total parameters), puzzle data from Enigmata
further boosts SoTA performance on advanced math and STEM reasoning tasks such
as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization
benefits of Enigmata. This work offers a unified, controllable framework for
advancing logical reasoning in LLMs. Resources of this work can be found at
https://seed-enigmata.github.io.