Heimdall: escalado en tiempo de prueba en la verificación generativa
Heimdall: test-time scaling on the generative verification
April 14, 2025
Autores: Wenlei Shi, Xing Jin
cs.AI
Resumen
Un sistema de IA solo puede crear y mantener conocimiento en la medida en que pueda verificar ese conocimiento por sí mismo. Trabajos recientes sobre razonamiento de Cadenas de Pensamiento (CoT) largas han demostrado el gran potencial de los LLM para resolver problemas competitivos, pero su capacidad de verificación sigue siendo débil y no ha sido suficientemente investigada. En este artículo, proponemos Heimdall, un LLM de verificación de CoT largas que puede juzgar con precisión la corrección de las soluciones. Utilizando únicamente aprendizaje por refuerzo, aumentamos la precisión de verificación del 62.5% al 94.5% en problemas matemáticos competitivos. Al escalar con muestreo repetido, la precisión aumenta aún más al 97.5%. A través de evaluaciones humanas, Heimdall demuestra capacidades impresionantes de generalización, detectando con éxito la mayoría de los problemas en pruebas matemáticas desafiantes, un tipo de problema que no se incluyó durante el entrenamiento. Además, proponemos la Verificación Pesimista para extender la funcionalidad de Heimdall y escalar la resolución de problemas. Este método llama a Heimdall para juzgar las soluciones de un modelo resolutor y, basándose en el principio pesimista, selecciona la solución más probablemente correcta con la menor incertidumbre. Utilizando DeepSeek-R1-Distill-Qwen-32B como modelo resolutor, la Verificación Pesimista mejora la precisión de las soluciones en AIME2025 del 54.2% al 70.0% con un presupuesto computacional de 16x, y al 83.3% con un presupuesto computacional mayor. Con el modelo resolutor más potente, Gemini 2.5 Pro, la puntuación alcanza el 93.0%. Finalmente, prototipamos un sistema automático de descubrimiento de conocimiento, un sistema ternario donde uno plantea preguntas, otro proporciona soluciones y el tercero verifica las soluciones. Utilizando el trabajo de síntesis de datos NuminaMath para los dos primeros componentes, Heimdall identifica eficazmente registros problemáticos dentro del conjunto de datos y revela que casi la mitad de los datos están defectuosos, lo que curiosamente coincide con los estudios de ablación recientes de NuminaMath.
English
An AI system can create and maintain knowledge only to the extent that it can
verify that knowledge itself. Recent work on long Chain-of-Thought reasoning
has demonstrated great potential of LLMs on solving competitive problems, but
their verification ability remains to be weak and not sufficiently
investigated. In this paper, we propose Heimdall, the long CoT verification LLM
that can accurately judge the correctness of solutions. With pure reinforcement
learning, we boost the verification accuracy from 62.5% to 94.5% on competitive
math problems. By scaling with repeated sampling, the accuracy further
increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive
generalization capabilities, successfully detecting most issues in challenging
math proofs, the type of which is not included during training. Furthermore, we
propose Pessimistic Verification to extend the functionality of Heimdall to
scaling up the problem solving. It calls Heimdall to judge the solutions from a
solver model and based on the pessimistic principle, selects the most likely
correct solution with the least uncertainty. Taking
DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification
improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute
budget and to 83.3% with more compute budget. With the stronger solver Gemini
2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge
discovery system, a ternary system where one poses questions, another provides
solutions, and the third verifies the solutions. Using the data synthesis work
NuminaMath for the first two components, Heimdall effectively identifies
problematic records within the dataset and reveals that nearly half of the data
is flawed, which interestingly aligns with the recent ablation studies from
NuminaMath.Summary
AI-Generated Summary