풀지 못하는 것을 판단하기: 연구 수준 수학의 오라클 없는 평가를 위한 결과 기반 접근법
Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math
February 6, 2026
저자: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu
cs.AI
초록
최근 추론 모델의 발전에 따라 연구 수준의 수학 문제에 대한 그럴듯한 해법 시도를 생성하는 것이 가능해질 수 있으나, 검증 과정은 여전히 병목 현상으로 작용하며 부족한 전문가 시간을 소모하고 있습니다. 우리는 의미 있는 해법이 충분한 방법론 수준의 정보를 포함해야 하며, 이를 관련 질문군에 적용했을 때 잘못된 해법보다 더 나은 하류 작업 성능을 산출해야 한다는 가설을 세웠습니다. 이 아이디어를 바탕으로 우리는 Consequence-Based Utility를 제안합니다. 이는 오라클이 없는 평가자로, 각 후보 해법을 검증 가능한 관련 문제를 해결하는 데 컨텍스트 내 예시로 활용했을 때의 가치를 테스트하여 점수를 매깁니다. 우리의 접근 방식은 연구 수준의 수학 문제로 구성된 새로운 데이터셋에서 평가되었으며, 각 문제에는 전문가가 작성한 해법 하나와 LLM이 생성한 아홀 개의 해법이 짝을 이룹니다. 주목할 점은 Consequence-Based Utility가 순위 지정 품질에서 보상 모델, 생성적 보상 모델, LLM 판단 모델을 지속적으로 능가했다는 것입니다. 구체적으로, GPT-OSS-120B의 경우 Acc@1이 67.2에서 76.3으로, AUC가 71.4에서 79.6으로 향상되었으며, GPT-OSS-20B에서도 유사하게 큰 AUC 향상(69.0에서 79.2로)을 보였습니다. 더 나아가, LLM 판단 모델과 비교했을 때 더 큰 솔버-평가자 간 성능 차이를 보였으며, 기본 솔버가 해결에 자주 실패하는 인스턴스에서도 더 강력한 정답-오답 구분 능력을 유지했습니다.
English
Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.