Juger ce que nous ne pouvons résoudre : une approche conséquentialiste pour l'évaluation sans oracle des mathématiques de niveau recherche

Résumé

Les progrès récents des modèles de raisonnement suggèrent que la génération de tentatives plausibles pour des problèmes mathématiques de niveau recherche pourrait être à portée, mais la vérification reste un goulot d'étranglement, consommant un temps expert précieux. Nous faisons l'hypothèse qu'une solution significative devrait contenir suffisamment d'informations au niveau méthodologique pour que, lorsqu'elle est appliquée à un ensemble de questions connexes, elle produise de meilleures performances en aval que des solutions incorrectes. En nous appuyant sur cette idée, nous proposons l'Utilité Basée sur les Conséquences, un évaluateur sans oracle qui note chaque candidat en testant sa valeur en tant qu'exemple en contexte pour résoudre des questions connexes mais vérifiables. Notre approche est évaluée sur un ensemble original de problèmes mathématiques de niveau recherche, chacun étant associé à une solution rédigée par un expert et à neuf solutions générées par des LLM. Notamment, l'Utilité Basée sur les Conséquences surpasse systématiquement les modèles de récompense, les modèles de récompense génératifs et les juges LLM en termes de qualité de classement. Plus précisément, pour GPT-OSS-120B, elle améliore l'Acc@1 de 67,2 à 76,3 et l'AUC de 71,4 à 79,6, avec des gains d'AUC tout aussi importants sur GPT-OSS-20B (69,0 à 79,2). De plus, par rapport aux juges LLM, elle présente également un écart plus important entre le solveur et l'évaluateur, maintenant une séparation correct/incorrect plus forte même sur les instances où le solveur sous-jacent échoue souvent à résoudre le problème.

English

Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.

Juger ce que nous ne pouvons résoudre : une approche conséquentialiste pour l'évaluation sans oracle des mathématiques de niveau recherche

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Résumé

Support