Juzgar lo que no podemos resolver: un enfoque basado en consecuencias para la evaluación de matemáticas de nivel investigativo sin oráculos

Resumen

Los avances recientes en modelos de razonamiento sugieren que la generación de intentos plausibles para matemáticas de nivel investigador podría estar al alcance, pero la verificación sigue siendo un cuello de botella que consume el escaso tiempo de los expertos. Nuestra hipótesis es que una solución significativa debe contener suficiente información a nivel metodológico para que, cuando se aplique a un conjunto de preguntas relacionadas, produzca un mejor rendimiento posterior que las soluciones incorrectas. Basándonos en esta idea, proponemos la Utilidad Basada en Consecuencias, un evaluador libre de oráculo que puntúa cada candidato probando su valor como ejemplo contextual para resolver preguntas relacionadas pero verificables. Nuestro enfoque se evalúa en un conjunto original de problemas matemáticos de nivel investigador, cada uno emparejado con una solución escrita por expertos y nueve soluciones generadas por LLM. Notablemente, la Utilidad Basada en Consecuencias supera consistentemente a los modelos de recompensa, modelos de recompensa generativos y jueces LLM en calidad de clasificación. Específicamente, para GPT-OSS-120B, mejora la Precisión@1 de 67.2 a 76.3 y el AUC de 71.4 a 79.6, con ganancias igualmente grandes en AUC para GPT-OSS-20B (69.0 a 79.2). Además, en comparación con los Jueces-LLM, también exhibe una brecha mayor entre resolvedor y evaluador, manteniendo una separación correcto-incorrecto más sólida incluso en instancias donde el resolvedor subyacente a menudo falla en resolver.

English

Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.