Oordelen over wat we niet kunnen oplossen: een gevolgenbenadering voor orakelvrije evaluatie van onderzoeksniveau-wiskunde

Samenvatting

Recente vooruitgang in redeneermodellen suggereert dat het genereren van plausibele pogingen voor onderzoekniveau wiskunde binnen bereik zou kunnen komen, maar verificatie blijft een knelpunt dat schaarse expertentijd vergt. Wij veronderstellen dat een zinvolle oplossing voldoende informatie op methodeniveau moet bevatten, zodat, wanneer deze wordt toegepast op een reeks verwante vragen, dit betere downstream-prestaties zou moeten opleveren dan onjuiste oplossingen. Voortbordurend op dit idee stellen wij Consequence-Based Utility voor, een evaluator zonder orakel die elke kandidaat-oplossing beoordeelt door de waarde ervan te testen als een in-context voorbeeld bij het oplossen van verwante maar verifieerbare vragen. Onze aanpak wordt geëvalueerd op een originele set wiskundeproblemen van onderzoekniveau, elk gekoppeld aan één door een expert geschreven oplossing en negen door een LLM gegenereerde oplossingen. Opmerkelijk is dat Consequence-Based Utility consistent beter presteert dan beloningsmodellen, generatieve beloningsmodellen en LLM-beoordelaars wat betreft rangschikkingskwaliteit. Specifiek, voor GPT-OSS-120B verbetert het Acc@1 van 67.2 naar 76.3 en AUC van 71.4 naar 79.6, met vergelijkbaar grote AUC-winsten op GPT-OSS-20B (69.0 naar 79.2). Verder vertoont het, in vergelijking met LLM-beoordelaars, ook een grotere kloof tussen oplosser en evaluator, waarbij het een sterkere scheiding tussen correct en fout handhaaft, zelfs op gevallen waar de onderliggende oplosser vaak faalt om het probleem op te lossen.

English

Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.

Oordelen over wat we niet kunnen oplossen: een gevolgenbenadering voor orakelvrije evaluatie van onderzoeksniveau-wiskunde

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Samenvatting

Support