Heimdall: 생성적 검증을 위한 테스트 시간 스케일링
Heimdall: test-time scaling on the generative verification
April 14, 2025
저자: Wenlei Shi, Xing Jin
cs.AI
초록
AI 시스템은 스스로 그 지식을 검증할 수 있는 범위 내에서만 지식을 생성하고 유지할 수 있습니다. 최근 장기 사고 사슬(Chain-of-Thought) 추론에 대한 연구는 대형 언어 모델(LLM)이 경쟁적인 문제를 해결하는 데 있어 큰 잠재력을 보여주었지만, 그들의 검증 능력은 여전히 약하며 충분히 연구되지 않았습니다. 본 논문에서는 해결책의 정확성을 정확히 판단할 수 있는 장기 사고 사슬 검증 LLM인 Heimdall을 제안합니다. 순수 강화 학습을 통해 경쟁 수학 문제에서 검증 정확도를 62.5%에서 94.5%로 향상시켰습니다. 반복 샘플링을 통해 확장함으로써 정확도는 더욱 97.5%로 증가했습니다. 인간 평가를 통해 Heimdall은 훈련 중 포함되지 않았던 유형의 도전적인 수학 증명에서 대부분의 문제를 성공적으로 감지하는 인상적인 일반화 능력을 보여주었습니다. 또한, Heimdall의 기능을 확장하여 문제 해결을 확장하기 위해 비관적 검증(Pessimistic Verification)을 제안합니다. 이는 Heimdall을 호출하여 솔버 모델의 해결책을 판단하고, 비관적 원칙에 따라 가장 정확할 가능성이 높고 불확실성이 가장 적은 해결책을 선택합니다. DeepSeek-R1-Distill-Qwen-32B를 솔버 모델로 사용할 때, 비관적 검증은 AIME2025에서 해결책 정확도를 54.2%에서 16배의 계산 예산으로 70.0%로, 더 많은 계산 예산으로 83.3%로 향상시켰습니다. 더 강력한 솔버인 Gemini 2.5 Pro를 사용할 경우, 점수는 93.0%에 도달했습니다. 마지막으로, 질문을 제기하는 하나의 구성 요소, 해결책을 제공하는 다른 구성 요소, 그리고 해결책을 검증하는 세 번째 구성 요소로 이루어진 삼원 시스템인 자동 지식 발견 시스템의 프로토타입을 제작했습니다. 처음 두 구성 요소에 NuminaMath의 데이터 합성 작업을 사용하여 Heimdall은 데이터셋 내의 문제가 있는 기록을 효과적으로 식별하고, 데이터의 거의 절반이 결함이 있음을 밝혀냈는데, 이는 흥미롭게도 NuminaMath의 최근 제거 연구와 일치합니다.
English
An AI system can create and maintain knowledge only to the extent that it can
verify that knowledge itself. Recent work on long Chain-of-Thought reasoning
has demonstrated great potential of LLMs on solving competitive problems, but
their verification ability remains to be weak and not sufficiently
investigated. In this paper, we propose Heimdall, the long CoT verification LLM
that can accurately judge the correctness of solutions. With pure reinforcement
learning, we boost the verification accuracy from 62.5% to 94.5% on competitive
math problems. By scaling with repeated sampling, the accuracy further
increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive
generalization capabilities, successfully detecting most issues in challenging
math proofs, the type of which is not included during training. Furthermore, we
propose Pessimistic Verification to extend the functionality of Heimdall to
scaling up the problem solving. It calls Heimdall to judge the solutions from a
solver model and based on the pessimistic principle, selects the most likely
correct solution with the least uncertainty. Taking
DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification
improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute
budget and to 83.3% with more compute budget. With the stronger solver Gemini
2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge
discovery system, a ternary system where one poses questions, another provides
solutions, and the third verifies the solutions. Using the data synthesis work
NuminaMath for the first two components, Heimdall effectively identifies
problematic records within the dataset and reveals that nearly half of the data
is flawed, which interestingly aligns with the recent ablation studies from
NuminaMath.Summary
AI-Generated Summary