ChatPaper.aiChatPaper

DeepSeekMath-V2: Auf dem Weg zu selbstverifizierendem mathematischem Denken

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

November 27, 2025
papers.authors: Zhihong Shao, Yuxiang Luo, Chengda Lu, Z. Z. Ren, Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang
cs.AI

papers.abstract

Große Sprachmodelle haben bedeutende Fortschritte im mathematischen Denken erzielt, das als wichtige Testumgebung für KI dient und bei weiterer Entwicklung wissenschaftliche Forschung beeinflussen könnte. Durch Skalierung des Schlussfolgerns mittels Verstärkungslernen, das korrekte Endergebnisse belohnt, haben sich LLMs innerhalb eines Jahres von schlechter Leistung zur Sättigung quantitativer Denkwettbewerbe wie AIME und HMMT verbessert. Dieser Ansatz stößt jedoch auf grundlegende Grenzen. Das Streben nach höherer Genauigkeit der Endergebnisse löst ein Kernproblem nicht: Korrekte Antworten garantieren keine korrekte Schlussfolgerung. Zudem erfordern viele mathematische Aufgaben wie Theorembeweise rigorose schrittweise Ableitungen statt numerischer Ergebnisse, was Belohnungen für Endergebnisse unanwendbar macht. Um die Grenzen tiefgehenden Denkens zu erweitern, glauben wir, dass die Überprüfung der Vollständigkeit und Strenge mathematischer Schlussfolgerungen notwendig ist. Selbstverifikation ist besonders wichtig für die Skalierung von Rechenleistung zur Testzeit, insbesondere bei offenen Problemen ohne bekannte Lösungen. Für selbstverifizierbares mathematisches Denken untersuchen wir, wie ein genauer und zuverlässiger LLM-basierter Verifizierer für Theorembeweise trainiert werden kann. Anschließend trainieren wir einen Beweisgenerator, der den Verifizierer als Belohnungsmodell nutzt, und incentivieren den Generator, möglichst viele Probleme in eigenen Beweisen zu identifizieren und zu beheben, bevor diese finalisiert werden. Um die Generierungs-Verifizierungs-Lücke bei stärker werdenden Generatoren aufrechtzuerhalten, schlagen wir vor, die Verifizierungsrechenleistung zu skalieren, um neue schwer überprüfbare Beweise automatisch zu labeln und Trainingsdaten zur weiteren Verbesserung des Verifizierers zu schaffen. Unser resultierendes Modell DeepSeekMath-V2 demonstriert starke Fähigkeiten im Theorembeweis, erreicht Gold-Level-Scores bei der IMO 2025 und CMO 2024 sowie eine nahezu perfekte Punktzahl von 118/120 beim Putnam 2024 mit skalierter Testrechenleistung.
English
Large language models have made significant progress in mathematical reasoning, which serves as an important testbed for AI and could impact scientific research if further advanced. By scaling reasoning with reinforcement learning that rewards correct final answers, LLMs have improved from poor performance to saturating quantitative reasoning competitions like AIME and HMMT in one year. However, this approach faces fundamental limitations. Pursuing higher final answer accuracy doesn't address a key issue: correct answers don't guarantee correct reasoning. Moreover, many mathematical tasks like theorem proving require rigorous step-by-step derivation rather than numerical answers, making final answer rewards inapplicable. To push the limits of deep reasoning, we believe it is necessary to verify the comprehensiveness and rigor of mathematical reasoning. Self-verification is particularly important for scaling test-time compute, especially for open problems without known solutions. Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving. We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hard-to-verify proofs, creating training data to further improve the verifier. Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled test-time compute.
PDF191December 2, 2025