DeepSeekMath-V2: 자기 검증 가능한 수학적 추론을 향하여
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
November 27, 2025
저자: Zhihong Shao, Yuxiang Luo, Chengda Lu, Z. Z. Ren, Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang
cs.AI
초록
대규모 언어 모델은 수학적 추론에서 상당한 진전을 보여왔으며, 이는 AI의 중요한 시험대이자 더욱 발전할 경우 과학 연구에 영향을 미칠 수 있는 분야입니다. 정답에 대한 보상을 제공하는 강화 학습을 통해 추론 규모를 확장함으로써, LLM은 불과 1년 만에 낮은 성능에서 AIME 및 HMMT와 같은 양적 추론 경쟁에서 포화 상태에 이르는 성과를 거두었습니다. 그러나 이러한 접근 방식은 근본적인 한계에 직면해 있습니다. 최종 정답률을 높이는 것은 핵심 문제를 해결하지 못합니다. 즉, 정답이 올바른 추론을 보장하지는 않기 때문입니다. 더욱이 정리 증명과 같은 많은 수학적 과제는 수치적 답변이 아닌 엄격한 단계별 유도를 필요로 하여 최종 답변 보상이 적용되지 않습니다. 심층 추론의 한계를 극복하기 위해서는 수학적 추론의 포괄성과 엄밀성을 검증하는 것이 필요하다고 믿습니다. 특히 알려진 해답이 없는 미해결 문제에 대해 테스트 시간 계산 자원을 확장할 때 자기 검증(self-verification)은 특히 중요합니다.
자기 검증이 가능한 수학적 추론을 위해, 우리는 정리 증명을 위한 정확하고 신뢰할 수 있는 LLM 기반 검증기(verifier)를 어떻게 훈련시킬지 연구합니다. 그런 다음 이 검증기를 보상 모델로 사용하여 증명 생성기(proof generator)를 훈련시키고, 생성기가 자신의 증명을 최종 완성하기 전에 가능한 한 많은 문제점을 찾아내고 해결하도록 유도합니다. 생성기가 강해짐에 따라 생성과 검증 간의 격차(generation-verification gap)를 유지하기 위해, 우리는 검증 계산 자원을 확장하여 검증하기 어려운 새로운 증명에 자동으로 레이블을 지정하고, 이를 통해 검증기를 더욱 향상시킬 훈련 데이터를 생성하는 방법을 제안합니다. 이를 통해 개발된 우리의 모델인 DeepSeekMath-V2는 강력한 정리 증명 능력을 입증하여, 확장된 테스트 시간 계산을 통해 IMO 2025와 CMO 2024에서 금메달 수준의 점수를, Putnam 2024에서는 120점 만점에 118점에 가까운 거의 완벽한 성적을 달성했습니다.
English
Large language models have made significant progress in mathematical reasoning, which serves as an important testbed for AI and could impact scientific research if further advanced. By scaling reasoning with reinforcement learning that rewards correct final answers, LLMs have improved from poor performance to saturating quantitative reasoning competitions like AIME and HMMT in one year. However, this approach faces fundamental limitations. Pursuing higher final answer accuracy doesn't address a key issue: correct answers don't guarantee correct reasoning. Moreover, many mathematical tasks like theorem proving require rigorous step-by-step derivation rather than numerical answers, making final answer rewards inapplicable. To push the limits of deep reasoning, we believe it is necessary to verify the comprehensiveness and rigor of mathematical reasoning. Self-verification is particularly important for scaling test-time compute, especially for open problems without known solutions. Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving. We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hard-to-verify proofs, creating training data to further improve the verifier. Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled test-time compute.