Heimdall: dimensionamento em tempo de teste na verificação generativa
Heimdall: test-time scaling on the generative verification
April 14, 2025
Autores: Wenlei Shi, Xing Jin
cs.AI
Resumo
Um sistema de IA pode criar e manter conhecimento apenas na medida em que consegue verificar esse conhecimento por si mesmo. Trabalhos recentes sobre raciocínio de Cadeia de Pensamento Longa (Chain-of-Thought, CoT) demonstraram o grande potencial dos LLMs (Large Language Models) na resolução de problemas competitivos, mas sua capacidade de verificação ainda é fraca e não foi suficientemente investigada. Neste artigo, propomos Heimdall, um LLM de verificação de CoT longo que pode julgar com precisão a correção das soluções. Com puro aprendizado por reforço, aumentamos a precisão de verificação de 62,5% para 94,5% em problemas de matemática competitiva. Ao escalar com amostragem repetida, a precisão aumenta ainda mais para 97,5%. Por meio de avaliação humana, Heimdall demonstra impressionantes capacidades de generalização, detectando com sucesso a maioria dos problemas em provas matemáticas desafiadoras, cujo tipo não foi incluído durante o treinamento. Além disso, propomos a Verificação Pessimista para estender a funcionalidade de Heimdall ao escalar a resolução de problemas. Ela chama Heimdall para julgar as soluções de um modelo solucionador e, com base no princípio pessimista, seleciona a solução mais provavelmente correta com a menor incerteza. Utilizando DeepSeek-R1-Distill-Qwen-32B como modelo solucionador, a Verificação Pessimista melhora a precisão das soluções no AIME2025 de 54,2% para 70,0% com um orçamento computacional 16 vezes maior e para 83,3% com um orçamento ainda maior. Com o modelo solucionador mais forte, Gemini 2.5 Pro, a pontuação chega a 93,0%. Por fim, prototipamos um sistema automático de descoberta de conhecimento, um sistema ternário onde um componente faz perguntas, outro fornece soluções e o terceiro verifica as soluções. Utilizando o trabalho de síntese de dados NuminaMath para os dois primeiros componentes, Heimdall identifica efetivamente registros problemáticos dentro do conjunto de dados e revela que quase metade dos dados está defeituosa, o que curiosamente se alinha com os estudos de ablação recentes do NuminaMath.
English
An AI system can create and maintain knowledge only to the extent that it can
verify that knowledge itself. Recent work on long Chain-of-Thought reasoning
has demonstrated great potential of LLMs on solving competitive problems, but
their verification ability remains to be weak and not sufficiently
investigated. In this paper, we propose Heimdall, the long CoT verification LLM
that can accurately judge the correctness of solutions. With pure reinforcement
learning, we boost the verification accuracy from 62.5% to 94.5% on competitive
math problems. By scaling with repeated sampling, the accuracy further
increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive
generalization capabilities, successfully detecting most issues in challenging
math proofs, the type of which is not included during training. Furthermore, we
propose Pessimistic Verification to extend the functionality of Heimdall to
scaling up the problem solving. It calls Heimdall to judge the solutions from a
solver model and based on the pessimistic principle, selects the most likely
correct solution with the least uncertainty. Taking
DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification
improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute
budget and to 83.3% with more compute budget. With the stronger solver Gemini
2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge
discovery system, a ternary system where one poses questions, another provides
solutions, and the third verifies the solutions. Using the data synthesis work
NuminaMath for the first two components, Heimdall effectively identifies
problematic records within the dataset and reveals that nearly half of the data
is flawed, which interestingly aligns with the recent ablation studies from
NuminaMath.Summary
AI-Generated Summary