ChatPaper.aiChatPaper

Heimdall : mise à l'échelle en phase de test pour la vérification générative

Heimdall: test-time scaling on the generative verification

April 14, 2025
Auteurs: Wenlei Shi, Xing Jin
cs.AI

Résumé

Un système d'IA ne peut créer et maintenir des connaissances que dans la mesure où il est capable de vérifier ces connaissances par lui-même. Les travaux récents sur le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) longue ont démontré le grand potentiel des modèles de langage (LLMs) pour résoudre des problèmes compétitifs, mais leur capacité de vérification reste faible et insuffisamment étudiée. Dans cet article, nous proposons Heimdall, un LLM de vérification de CoT longue capable de juger avec précision l'exactitude des solutions. Grâce à un apprentissage par renforcement pur, nous augmentons la précision de vérification de 62,5 % à 94,5 % sur des problèmes de mathématiques compétitifs. En utilisant un échantillonnage répété, la précision atteint 97,5 %. À travers une évaluation humaine, Heimdall démontre des capacités de généralisation impressionnantes, détectant avec succès la plupart des erreurs dans des preuves mathématiques complexes, un type de problème non inclus pendant l'entraînement. De plus, nous proposons la Vérification Pessimiste pour étendre les fonctionnalités de Heimdall à l'augmentation de la résolution de problèmes. Cette méthode utilise Heimdall pour juger les solutions d'un modèle de résolution et, en se basant sur le principe pessimiste, sélectionne la solution la plus probablement correcte avec le moins d'incertitude. En prenant DeepSeek-R1-Distill-Qwen-32B comme modèle de résolution, la Vérification Pessimiste améliore la précision des solutions sur AIME2025 de 54,2 % à 70,0 % avec un budget de calcul 16 fois supérieur, et à 83,3 % avec un budget de calcul encore plus important. Avec le modèle de résolution plus puissant Gemini 2.5 Pro, le score atteint 93,0 %. Enfin, nous proposons un prototype de système automatique de découverte de connaissances, un système ternaire où un composant pose des questions, un autre fournit des solutions, et le troisième vérifie ces solutions. En utilisant le travail de synthèse de données NuminaMath pour les deux premiers composants, Heimdall identifie efficacement les enregistrements problématiques dans le jeu de données et révèle que près de la moitié des données sont erronées, ce qui correspond de manière intéressante aux études d'ablation récentes de NuminaMath.
English
An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.

Summary

AI-Generated Summary

PDF322April 16, 2025