Heimdall: масштабирование на этапе тестирования для генеративной верификации
Heimdall: test-time scaling on the generative verification
April 14, 2025
Авторы: Wenlei Shi, Xing Jin
cs.AI
Аннотация
Искусственная интеллектуальная система может создавать и поддерживать знания только в той мере, в которой она способна самостоятельно их проверять. Недавние исследования в области длинных цепочек рассуждений (Chain-of-Thought) продемонстрировали значительный потенциал крупных языковых моделей (LLM) в решении сложных задач, однако их способность к проверке остается слабой и недостаточно изученной. В данной статье мы представляем Heimdall — LLM для проверки длинных цепочек рассуждений, которая может точно оценивать корректность решений. С использованием чистого обучения с подкреплением мы повысили точность проверки с 62,5% до 94,5% на конкурсных математических задачах. При масштабировании с повторной выборкой точность дополнительно увеличилась до 97,5%. В ходе человеческой оценки Heimdall продемонстрировала впечатляющие способности к обобщению, успешно выявляя большинство ошибок в сложных математических доказательствах, тип которых не был включен в обучающие данные. Кроме того, мы предлагаем Пессимистическую Проверку (Pessimistic Verification) для расширения функциональности Heimdall в масштабировании решения задач. Этот метод использует Heimdall для оценки решений, предоставленных моделью-решателем, и на основе пессимистического принципа выбирает наиболее вероятно правильное решение с наименьшей неопределенностью. При использовании модели DeepSeek-R1-Distill-Qwen-32B в качестве решателя Пессимистическая Проверка повысила точность решений на задачах AIME2025 с 54,2% до 70,0% при 16-кратном вычислительном бюджете и до 83,3% при увеличении бюджета. С более мощной моделью Gemini 2.5 Pro результат достиг 93,0%. Наконец, мы разработали прототип системы автоматического открытия знаний — троичной системы, где один компонент задает вопросы, другой предоставляет решения, а третий проверяет их. Используя работу по синтезу данных NuminaMath для первых двух компонентов, Heimdall эффективно выявила проблемные записи в наборе данных и показала, что почти половина данных содержит ошибки, что интересным образом согласуется с недавними исследованиями исключений из NuminaMath.
English
An AI system can create and maintain knowledge only to the extent that it can
verify that knowledge itself. Recent work on long Chain-of-Thought reasoning
has demonstrated great potential of LLMs on solving competitive problems, but
their verification ability remains to be weak and not sufficiently
investigated. In this paper, we propose Heimdall, the long CoT verification LLM
that can accurately judge the correctness of solutions. With pure reinforcement
learning, we boost the verification accuracy from 62.5% to 94.5% on competitive
math problems. By scaling with repeated sampling, the accuracy further
increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive
generalization capabilities, successfully detecting most issues in challenging
math proofs, the type of which is not included during training. Furthermore, we
propose Pessimistic Verification to extend the functionality of Heimdall to
scaling up the problem solving. It calls Heimdall to judge the solutions from a
solver model and based on the pessimistic principle, selects the most likely
correct solution with the least uncertainty. Taking
DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification
improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute
budget and to 83.3% with more compute budget. With the stronger solver Gemini
2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge
discovery system, a ternary system where one poses questions, another provides
solutions, and the third verifies the solutions. Using the data synthesis work
NuminaMath for the first two components, Heimdall effectively identifies
problematic records within the dataset and reveals that nearly half of the data
is flawed, which interestingly aligns with the recent ablation studies from
NuminaMath.Summary
AI-Generated Summary