ChatPaper.aiChatPaper

Enigmata: Масштабирование логического мышления в больших языковых моделях с помощью синтетических проверяемых головоломок

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

May 26, 2025
Авторы: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI

Аннотация

Крупные языковые модели (LLM), такие как OpenAI o1 и DeepSeek R1, демонстрируют выдающиеся результаты в сложных задачах, таких как математика и программирование, благодаря обучению с подкреплением с проверяемыми наградами (RLVR). Однако они всё ещё испытывают трудности с решением головоломок, которые люди могут решать без специальных знаний. Мы представляем Enigmata — первый комплексный набор инструментов, разработанный для улучшения навыков LLM в решении головоломок. Он включает 36 задач, разделённых на семь категорий, каждая из которых содержит 1) генератор, создающий неограниченное количество примеров с контролируемой сложностью, и 2) основанный на правилах верификатор для автоматической оценки. Этот дизайн генератора и верификатора поддерживает масштабируемое многозадачное обучение с подкреплением, детальный анализ и бесшовную интеграцию RLVR. Мы также предлагаем Enigmata-Eval — строгий бенчмарк — и разрабатываем оптимизированные многозадачные стратегии RLVR. Наша обученная модель, Qwen2.5-32B-Enigmata, стабильно превосходит o3-mini-high и o1 на бенчмарках для решения головоломок, таких как Enigmata-Eval, ARC-AGI (32,8%) и ARC-AGI 2 (0,6%). Она также хорошо обобщает на внедоменные бенчмарки головоломок и математические задачи, с минимальными компромиссами в многозадачности. При обучении на более крупных моделях, таких как Seed1.5-Thinking (20 млрд активированных параметров и 200 млрд общих параметров), данные головоломок из Enigmata дополнительно повышают современные результаты в сложных математических и STEM-задачах, таких как AIME (2024–2025), BeyondAIME и GPQA (Diamond), демонстрируя преимущества обобщения Enigmata. Эта работа предлагает унифицированный и контролируемый фреймворк для развития логического мышления в LLM. Ресурсы этой работы доступны по адресу https://seed-enigmata.github.io.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.

Summary

AI-Generated Summary

PDF391May 27, 2025