Оценивая то, что не можем решить: подход, основанный на следствиях, для оценки математических исследований без оракула

Аннотация

Последние достижения в области моделей логического вывода позволяют предположить, что генерация правдоподобных попыток решения задач исследовательского уровня в математике может стать реальностью, однако верификация остается узким местом, потребляя дефицитное время экспертов. Мы выдвигаем гипотезу, что содержательное решение должно содержать достаточный объем информации на уровне метода, чтобы при применении к кругу смежных задач обеспечивать лучшую последующую производительность по сравнению с некорректными решениями. Основываясь на этой идее, мы предлагаем оценку полезности на основе следствий — свободный от оракула метод оценки, который присваивает баллы каждому кандидату, проверяя его ценность в качестве контекстуального примера для решения связанных, но верифицируемых задач. Наш подход оценивается на оригинальном наборе математических проблем исследовательского уровня, каждую из которых сопровождает одно решение, написанное экспертом, и девять решений, сгенерированных большой языковой моделью. Примечательно, что оценка полезности на основе следствий последовательно превосходит модели вознаграждения, генеративные модели вознаграждения и оценки больших языковых моделей по качеству ранжирования. В частности, для GPT-OSS-120B она улучшает Acc@1 с 67.2 до 76.3 и AUC с 71.4 до 79.6, демонстрируя аналогично значительный прирост AUC для GPT-OSS-20B (с 69.0 до 79.2). Более того, по сравнению с оценками больших языковых моделей, она также показывает больший разрыв между решателем и оценщиком, сохраняя более четкое разделение правильных и ошибочных решений даже на тех примерах, где базовый решатель часто не справляется с задачей.

English

Recent progress in reasoning models suggests that generating plausible attempts for research-level mathematics may be within reach, but verification remains a bottleneck, consuming scarce expert time. We hypothesize that a meaningful solution should contain enough method-level information that, when applied to a neighborhood of related questions, it should yield better downstream performance than incorrect solutions. Building on this idea, we propose Consequence-Based Utility, an oracle-free evaluator that scores each candidate by testing its value as an in-context exemplar in solving related yet verifiable questions. Our approach is evaluated on an original set of research-level math problems, each paired with one expert-written solution and nine LLM-generated solutions. Notably, Consequence-Based Utility consistently outperforms reward models, generative reward models, and LLM judges on ranking quality. Specifically, for GPT-OSS-120B, it improves Acc@1 from 67.2 to 76.3 and AUC from 71.4 to 79.6, with similarly large AUC gains on GPT-OSS-20B (69.0 to 79.2). Furthermore, compared to LLM-Judges, it also exhibits a larger solver-evaluator gap, maintaining a stronger correct-wrong separation even on instances where the underlying solver often fails to solve.

Оценивая то, что не можем решить: подход, основанный на следствиях, для оценки математических исследований без оракула

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Аннотация

Support