Giudicare ciò che non possiamo risolvere: un approccio basato sulle conseguenze per la valutazione senza oracolo della matematica di livello avanzato

Abstract

I recenti progressi nei modelli di ragionamento suggeriscono che la generazione di tentativi plausibili per la matematica a livello di ricerca potrebbe essere alla portata, ma la verifica rimane un collo di bottiglia, che consuma il tempo limitato degli esperti. Ipotesizziamo che una soluzione significativa debba contenere sufficienti informazioni a livello metodologico tali che, se applicate a un insieme di domande correlate, producano prestazioni migliori rispetto a soluzioni errate. Sviluppando questa idea, proponiamo l'Utilità Basata sulle Conseguenze, un valutatore senza oracolo che assegna un punteggio a ciascun candidato testandone il valore come esempio in-context nella risoluzione di domande correlate ma verificabili. Il nostro approccio è valutato su un set originale di problemi matematici di livello ricerca, ciascuno abbinato a una soluzione scritta da esperti e nove soluzioni generate da LLM. Significativamente, l'Utilità Basata sulle Conseguenze supera costantemente i modelli di reward, i modelli di reward generativi e i giudici LLM nella qualità del ranking. In particolare, per GPT-OSS-120B, migliora l'Acc@1 da 67,2 a 76,3 e l'AUC da 71,4 a 79,6, con guadagni AUC similmente ampi su GPT-OSS-20B (da 69,0 a 79,2). Inoltre, rispetto ai Giudici-LLM, mostra anche un divario risolutore-valutatore più ampio, mantenendo una separazione corretto-errato più marcata anche sugli casi in cui il risolutore sottostante spesso fallisce nella risoluzione.

English

Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.

Giudicare ciò che non possiamo risolvere: un approccio basato sulle conseguenze per la valutazione senza oracolo della matematica di livello avanzato

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Abstract

Support