Докторское знание не требуется: вызов в области рассуждений для больших языковых моделей
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Авторы: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Аннотация
Существующие бенчмарки для передовых моделей часто проверяют специализированные знания на уровне докторантуры, которые сложно понять неспециалистам. В отличие от этого, мы представляем бенчмарк, основанный на вызове головоломки NPR Sunday Puzzle Challenge, который требует только общих знаний. Наш бенчмарк вызывает сложности как для людей, так и для моделей, однако правильные решения легко проверить, а ошибки моделей легко обнаружить. Наша работа выявляет разрывы в возможностях, которые не являются очевидными в существующих бенчмарках: OpenAI o1 значительно превосходит другие модели рассуждений, которые находятся на одном уровне в бенчмарках, проверяющих специализированные знания. Более того, наш анализ выводов рассуждений выявляет новые виды неудач. Например, DeepSeek R1 часто сдается с фразой "Я сдаюсь", прежде чем дать ответ, который он знает неверным. R1 также может быть заметно "неуверенным" в своем выводе, и в редких случаях не "заканчивает размышления", что указывает на необходимость техники времени вывода для "завершения" до достижения предела окна контекста. Мы также количественно оцениваем эффективность более длительного рассуждения с R1 и Gemini Thinking для определения момента, после которого дальнейшее рассуждение маловероятно улучшит точность нашего бенчмарка.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary