ChatPaper.aiChatPaper

Bewertung des Unlösbaren: Ein konsequenzbasierter Ansatz zur oracle-freien Evaluation forschungsnaher Mathematik

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

February 6, 2026
Autoren: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Reasoning-Modellen deuten darauf hin, dass die Generierung plausibler Lösungsansätze für forschungsnahe Mathematikprobleme bald möglich sein könnte, doch die Verifikation bleibt ein Engpass, der knappe Expertenzeit beansprucht. Wir stellen die Hypothese auf, dass eine aussagekräftige Lösung ausreichend Methodeninformationen enthalten sollte, sodass ihre Anwendung auf eine Gruppe verwandter Fragen eine bessere Leistung erzielt als falsche Lösungen. Aufbauend auf dieser Idee schlagen wir Consequence-Based Utility vor, einen evaluatorischen Ansatz ohne Oracle, der jeden Kandidaten bewertet, indem sein Wert als In-Context-Exemplar für die Lösung verwandter aber verifizierbarer Fragen getestet wird. Unser Ansatz wird an einem eigens erstellten Datensatz forschungsnaher Mathematikprobleme evaluiert, wobei jede Aufgabe mit einer von Experten verfassten Lösung und neun LLM-generierten Lösungen gepaart ist. Bemerkenswerterweise übertrifft Consequence-Based Utility durchgängig Reward-Modelle, generative Reward-Modelle und LLM-Judges in der Ranking-Qualität. Konkret verbessert es für GPT-OSS-120B Acc@1 von 67,2 auf 76,3 und AUC von 71,4 auf 79,6, mit ähnlich großen AUC-Steigerungen bei GPT-OSS-20B (69,0 auf 79,2). Zudem zeigt es im Vergleich zu LLM-Judges eine größere Solver-Evaluator-Lücke und bewahrt eine stärkere Trennung zwischen korrekten und falschen Lösungen, selbst bei Instanzen, bei denen der zugrundeliegende Solver häufig scheitert.
English
Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.
PDF232March 16, 2026