Avaliando o que Não Podemos Resolver: Uma Abordagem Baseada em Consequências para a Avaliação sem Oráculo de Matemática de Nível de Pesquisa
Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math
February 6, 2026
Autores: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu
cs.AI
Resumo
Os recentes avanços em modelos de raciocínio sugerem que a geração de tentativas plausíveis para problemas matemáticos de nível de pesquisa pode estar ao alcance, mas a verificação permanece um gargalo, consumindo o tempo escasso de especialistas. Nossa hipótese é que uma solução significativa deve conter informações suficientes a nível de método que, quando aplicadas a um conjunto de questões relacionadas, produzam um desempenho subsequente melhor do que soluções incorretas. Com base nesta ideia, propomos a Utilidade Baseada em Consequências, um avaliador livre de oráculo que pontua cada candidato testando seu valor como exemplo contextual na resolução de questões relacionadas, porém verificáveis. Nossa abordagem é avaliada em um conjunto original de problemas matemáticos de nível de pesquisa, cada um emparelhado com uma solução escrita por especialistas e nove soluções geradas por LLM. Notavelmente, a Utilidade Baseada em Consequências supera consistentemente modelos de recompensa, modelos de recompensa generativos e juízes LLM em qualidade de classificação. Especificamente, para o GPT-OSS-120B, ela melhora o Acc@1 de 67,2 para 76,3 e a AUC de 71,4 para 79,6, com ganhos de AUC igualmente grandes no GPT-OSS-20B (69,0 para 79,2). Além disso, em comparação com os Juízes-LLM, ela também exibe uma lacma maior entre resolvedor e avaliador, mantendo uma separação correto-errado mais forte mesmo em instâncias onde o resolvedor subjacente frequentemente falha em resolver.
English
Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.