Hard2Verify: Un punto de referencia para la verificación a nivel de pasos en matemáticas de frontera de tipo abierto

Resumen

Los sistemas de razonamiento basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han alcanzado recientemente un rendimiento de nivel medalla de oro en la competencia IMO 2025, redactando pruebas matemáticas en las que, para obtener la máxima calificación, cada paso no solo debe ser correcto, sino también estar suficientemente fundamentado. Para entrenar razonadores basados en LLM en entornos tan desafiantes y de final abierto, son requisitos previos esenciales verificadores robustos capaces de detectar errores a nivel de paso. Presentamos Hard2Verify, un punto de referencia de verificación a nivel de paso anotado por humanos, producido con más de 500 horas de trabajo humano. Hard2Verify está diseñado para evaluar rigurosamente a los verificadores a nivel de paso en la frontera: los verificadores deben proporcionar anotaciones a nivel de paso o identificar el primer error en las respuestas generadas por LLM de vanguardia para preguntas matemáticas recientes, desafiantes y de final abierto. Evaluamos 29 críticos generativos y modelos de recompensa de procesos, demostrando que, más allá de algunos destacados, los verificadores de código abierto están rezagados respecto a los modelos de código cerrado. Posteriormente, analizamos qué impulsa el bajo rendimiento en la verificación a nivel de paso, los impactos de escalar el cómputo de los verificadores, así como preguntas fundamentales como la autoverificación y la dinámica entre verificación y generación.

English

Large language model (LLM)-based reasoning systems have recently achieved gold medal-level performance in the IMO 2025 competition, writing mathematical proofs where, to receive full credit, each step must be not only correct but also sufficiently supported. To train LLM-based reasoners in such challenging, open-ended settings, strong verifiers capable of catching step-level mistakes are necessary prerequisites. We introduce Hard2Verify, a human-annotated, step-level verification benchmark produced with over 500 hours of human labor. Hard2Verify is designed to rigorously assess step-level verifiers at the frontier: Verifiers must provide step-level annotations or identify the first error in responses generated by frontier LLMs for very recent, challenging, and open-ended math questions. We evaluate 29 generative critics and process reward models, demonstrating that, beyond a few standouts, open-source verifiers lag closed source models. We subsequently analyze what drives poor performance in step-level verification, the impacts of scaling verifier compute, as well as fundamental questions such as self-verification and verification-generation dynamics.

Hard2Verify: Un punto de referencia para la verificación a nivel de pasos en matemáticas de frontera de tipo abierto

Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

Resumen

Support