ChatPaper.aiChatPaper

Enigmata : Mise à l'échelle du raisonnement logique dans les grands modèles de langage grâce à des énigmes synthétiques vérifiables

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

May 26, 2025
Auteurs: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI

Résumé

Les grands modèles de langage (LLMs), tels que o1 d'OpenAI et R1 de DeepSeek, excellent dans des tâches de raisonnement avancé comme les mathématiques et le codage grâce à l'apprentissage par renforcement avec récompenses vérifiables (RLVR), mais peinent encore à résoudre des énigmes que les humains peuvent résoudre sans connaissances spécifiques. Nous présentons Enigmata, la première suite complète conçue pour améliorer les compétences de raisonnement des LLMs sur les énigmes. Elle comprend 36 tâches réparties en sept catégories, chacune avec 1) un générateur produisant un nombre illimité d'exemples avec une difficulté contrôlable et 2) un vérificateur basé sur des règles pour une évaluation automatique. Cette conception générateur-vérificateur permet un entraînement RL multitâche évolutif, une analyse fine et une intégration fluide du RLVR. Nous proposons également Enigmata-Eval, un benchmark rigoureux, et développons des stratégies RLVR multitâches optimisées. Notre modèle entraîné, Qwen2.5-32B-Enigmata, surpasse systématiquement o3-mini-high et o1 sur les benchmarks de raisonnement d'énigmes comme Enigmata-Eval, ARC-AGI (32,8 %) et ARC-AGI 2 (0,6 %). Il généralise également bien aux benchmarks d'énigmes hors domaine et au raisonnement mathématique, avec un faible compromis multitâche. Lorsqu'il est entraîné sur des modèles plus grands comme Seed1.5-Thinking (20 milliards de paramètres activés et 200 milliards de paramètres totaux), les données d'énigmes d'Enigmata améliorent encore les performances de pointe sur des tâches de raisonnement mathématique et STEM avancées telles que AIME (2024-2025), BeyondAIME et GPQA (Diamond), montrant les avantages de généralisation d'Enigmata. Ce travail offre un cadre unifié et contrôlable pour faire progresser le raisonnement logique dans les LLMs. Les ressources de ce travail sont disponibles à l'adresse https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.

Summary

AI-Generated Summary

PDF391May 27, 2025