Heimdall: Test-Zeit-Skalierung bei der generativen Verifizierung
Heimdall: test-time scaling on the generative verification
April 14, 2025
Autoren: Wenlei Shi, Xing Jin
cs.AI
Zusammenfassung
Ein KI-System kann Wissen nur in dem Maße schaffen und aufrechterhalten, in dem es dieses Wissen selbst überprüfen kann. Aktuelle Arbeiten zur langen Chain-of-Thought-Argumentation haben das große Potenzial von LLMs bei der Lösung von Wettbewerbsproblemen aufgezeigt, doch ihre Fähigkeit zur Überprüfung bleibt schwach und wurde bisher nicht ausreichend untersucht. In diesem Artikel stellen wir Heimdall vor, das langkettige CoT-Überprüfungs-LLM, das die Korrektheit von Lösungen präzise beurteilen kann. Durch rein bestärkendes Lernen steigern wir die Überprüfungsgenauigkeit von 62,5 % auf 94,5 % bei Wettbewerbsmathematikproblemen. Durch Skalierung mit wiederholter Stichprobenentnahme erhöht sich die Genauigkeit weiter auf 97,5 %. In menschlichen Bewertungen zeigt Heimdall beeindruckende Generalisierungsfähigkeiten und erkennt erfolgreich die meisten Probleme in anspruchsvollen mathematischen Beweisen, deren Typ während des Trainings nicht enthalten war. Darüber hinaus schlagen wir die Pessimistische Überprüfung vor, um die Funktionalität von Heimdall zur Skalierung der Problemlösung zu erweitern. Sie ruft Heimdall auf, um die Lösungen eines Lösungsmodells zu beurteilen, und wählt basierend auf dem pessimistischen Prinzip die wahrscheinlich korrekte Lösung mit der geringsten Unsicherheit aus. Mit DeepSeek-R1-Distill-Qwen-32B als Lösungsmodell verbessert die Pessimistische Überprüfung die Lösungsgenauigkeit bei AIME2025 von 54,2 % auf 70,0 % mit einem 16-fachen Rechenbudget und auf 83,3 % mit einem höheren Rechenbudget. Mit dem stärkeren Lösungsmodell Gemini 2.5 Pro erreicht die Punktzahl 93,0 %. Schließlich prototypisieren wir ein automatisches Wissensentdeckungssystem, ein ternäres System, in dem eine Komponente Fragen stellt, eine andere Lösungen liefert und die dritte die Lösungen überprüft. Mit der Datensynthesearbeit NuminaMath für die ersten beiden Komponenten identifiziert Heimdall effektiv problematische Datensätze innerhalb des Datensatzes und zeigt, dass fast die Hälfte der Daten fehlerhaft ist, was interessanterweise mit den jüngsten Ablationsstudien von NuminaMath übereinstimmt.
English
An AI system can create and maintain knowledge only to the extent that it can
verify that knowledge itself. Recent work on long Chain-of-Thought reasoning
has demonstrated great potential of LLMs on solving competitive problems, but
their verification ability remains to be weak and not sufficiently
investigated. In this paper, we propose Heimdall, the long CoT verification LLM
that can accurately judge the correctness of solutions. With pure reinforcement
learning, we boost the verification accuracy from 62.5% to 94.5% on competitive
math problems. By scaling with repeated sampling, the accuracy further
increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive
generalization capabilities, successfully detecting most issues in challenging
math proofs, the type of which is not included during training. Furthermore, we
propose Pessimistic Verification to extend the functionality of Heimdall to
scaling up the problem solving. It calls Heimdall to judge the solutions from a
solver model and based on the pessimistic principle, selects the most likely
correct solution with the least uncertainty. Taking
DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification
improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute
budget and to 83.3% with more compute budget. With the stronger solver Gemini
2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge
discovery system, a ternary system where one poses questions, another provides
solutions, and the third verifies the solutions. Using the data synthesis work
NuminaMath for the first two components, Heimdall effectively identifies
problematic records within the dataset and reveals that nearly half of the data
is flawed, which interestingly aligns with the recent ablation studies from
NuminaMath.Summary
AI-Generated Summary