ChatPaper.aiChatPaper

Enigmata: Escalonando o Raciocínio Lógico em Modelos de Linguagem de Grande Escala com Quebra-Cabeças Sintéticos Verificáveis

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

May 26, 2025
Autores: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs), como o o1 da OpenAI e o R1 da DeepSeek, destacam-se em tarefas de raciocínio avançado, como matemática e codificação, por meio de Aprendizado por Reforço com Recompensas Verificáveis (RLVR), mas ainda enfrentam dificuldades com quebra-cabeças solucionáveis por humanos sem conhecimento específico do domínio. Apresentamos o Enigmata, o primeiro conjunto abrangente projetado para aprimorar LLMs com habilidades de raciocínio em quebra-cabeças. Ele inclui 36 tarefas em sete categorias, cada uma com 1) um gerador que produz exemplos ilimitados com dificuldade controlável e 2) um verificador baseado em regras para avaliação automática. Esse design gerador-verificador suporta treinamento escalável de RL multitarefa, análise detalhada e integração perfeita de RLVR. Além disso, propomos o Enigmata-Eval, um benchmark rigoroso, e desenvolvemos estratégias otimizadas de RLVR multitarefa. Nosso modelo treinado, Qwen2.5-32B-Enigmata, supera consistentemente o o3-mini-high e o o1 em benchmarks de raciocínio em quebra-cabeças como Enigmata-Eval, ARC-AGI (32,8%) e ARC-AGI 2 (0,6%). Ele também generaliza bem para benchmarks de quebra-cabeças fora do domínio e raciocínio matemático, com pouca compensação de multitarefa. Quando treinado em modelos maiores, como o Seed1.5-Thinking (20 bilhões de parâmetros ativados e 200 bilhões de parâmetros totais), os dados de quebra-cabeças do Enigmata aumentam ainda mais o desempenho de ponta em tarefas avançadas de matemática e raciocínio STEM, como AIME (2024-2025), BeyondAIME e GPQA (Diamond), mostrando os benefícios de generalização do Enigmata. Este trabalho oferece uma estrutura unificada e controlável para avançar o raciocínio lógico em LLMs. Os recursos deste trabalho podem ser encontrados em https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.
PDF441December 16, 2025