ChatPaper.aiChatPaper

解決できないものを判断する:研究レベルの数学に対するオラクル不要評価の帰結ベースアプローチ (注:タイトルは「オラクルフリー評価」が技術的に適切ですが、文脈によっては「外部判定器不要の評価」などと意訳することも可能です。研究論文のタイトルとしての自然さを優先しました)

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

February 6, 2026
著者: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu
cs.AI

要旨

推論モデルの最近の進歩は、研究レベルの数学に対する妥当な試みの生成が実現可能になりつつあることを示唆しているが、検証は依然として専門家の貴重な時間を消費するボトルネックとなっている。我々は、意味のある解決策には十分なメソッドレベルの情報が含まれており、関連する問題群に適用された場合、誤った解決策よりも優れた下流性能を発揮すべきであると仮説を立てる。この考えに基づき、我々はConsequence-Based Utilityを提案する。これはオラクルを必要としない評価器であり、各候補を検証可能な関連問題の解決における文脈内範例としての価値をテストすることでスコア付けを行う。本手法は、研究レベル数学問題の独自データセットで評価され、各問題には専門家による解決策1件とLLM生成解決策9件がペアで用意されている。特に、Consequence-Based Utilityは報酬モデル、生成的報酬モデル、LLM judgeを順位付け品質において一貫して上回った。具体的には、GPT-OSS-120BではAcc@1を67.2から76.3へ、AUCを71.4から79.6へ改善し、GPT-OSS-20Bでも同様に大きなAUC向上(69.0から79.2)を示した。さらにLLM judgeと比較して、ソルバー評価器ギャップがより大きく、基盤となるソルバーが解決に失敗することの多いインスタンスにおいても、正解と誤答の分離を強く維持することが観測された。
English
Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.
PDF232March 16, 2026