ChatPaper.aiChatPaper

Enigmata: 검증 가능한 합성 퍼즐을 활용한 대규모 언어 모델의 논리적 추론 능력 확장

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

May 26, 2025
저자: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
cs.AI

초록

OpenAI의 o1과 DeepSeek의 R1과 같은 대형 언어 모델(LLMs)은 검증 가능한 보상 강화 학습(RLVR)을 통해 수학 및 코딩과 같은 고급 추론 작업에서 뛰어난 성능을 보이지만, 도메인 지식 없이도 인간이 풀 수 있는 퍼즐에는 여전히 어려움을 겪습니다. 우리는 LLM의 퍼즐 추론 능력을 향상시키기 위해 특별히 설계된 첫 번째 포괄적인 도구인 Enigmata를 소개합니다. Enigmata는 7개 범주에 걸친 36개의 작업을 포함하며, 각 작업은 1) 난이도를 조절할 수 있는 무제한 예시를 생성하는 생성기와 2) 자동 평가를 위한 규칙 기반 검증기를 갖추고 있습니다. 이 생성기-검증기 설계는 확장 가능한 다중 작업 RL 훈련, 세분화된 분석, 원활한 RLVR 통합을 지원합니다. 또한, 엄격한 벤치마크인 Enigmata-Eval을 제안하고 최적화된 다중 작업 RLVR 전략을 개발했습니다. 우리가 훈련한 모델인 Qwen2.5-32B-Enigmata는 Enigmata-Eval, ARC-AGI(32.8%), ARC-AGI 2(0.6%)와 같은 퍼즐 추론 벤치마크에서 o3-mini-high와 o1을 꾸준히 능가합니다. 또한, 도메인 외 퍼즐 벤치마크와 수학적 추론에서도 잘 일반화되며, 다중 작업 간의 트레이드오프가 거의 없습니다. Seed1.5-Thinking(활성화된 매개변수 20B, 총 매개변수 200B)과 같은 더 큰 모델에서 Enigmata의 퍼즐 데이터를 훈련할 경우, AIME(2024-2025), BeyondAIME, GPQA(Diamond)와 같은 고급 수학 및 STEM 추론 작업에서 최신 기술(SoTA) 성능을 더욱 향상시키며, Enigmata의 우수한 일반화 이점을 보여줍니다. 이 연구는 LLM의 논리적 추론을 발전시키기 위한 통합적이고 제어 가능한 프레임워크를 제공합니다. 이 연구의 리소스는 https://seed-enigmata.github.io에서 확인할 수 있습니다.
English
Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.

Summary

AI-Generated Summary

PDF391May 27, 2025