Não é Necessário Conhecimento de Doutorado: Um Desafio de Raciocínio para Modelos de Linguagem Grandes
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Autores: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Resumo
Os benchmarks existentes para modelos de vanguarda frequentemente testam conhecimentos especializados de nível de "doutorado" que são difíceis de serem compreendidos por não especialistas. Em contraste, apresentamos um benchmark baseado no Desafio de Quebra-Cabeça Dominical da NPR que requer apenas conhecimento geral. Nosso benchmark é desafiador tanto para humanos quanto para modelos, no entanto, as soluções corretas são fáceis de verificar, e os erros dos modelos são fáceis de identificar. Nosso trabalho revela lacunas de capacidade que não são evidentes nos benchmarks existentes: o OpenAI o1 supera significativamente outros modelos de raciocínio que estão no mesmo nível em benchmarks que testam conhecimento especializado. Além disso, nossa análise das saídas de raciocínio revela novos tipos de falhas. O DeepSeek R1, por exemplo, frequentemente desiste com um "Eu desisto" antes de fornecer uma resposta que sabe estar errada. R1 também pode ser notavelmente "incerto" em sua saída e, em casos raros, não "conclui o pensamento", o que sugere a necessidade de uma técnica de tempo de inferência para "finalizar" antes que o limite da janela de contexto seja atingido. Também quantificamos a eficácia de raciocinar por mais tempo com R1 e Gemini Thinking para identificar o ponto além do qual mais raciocínio provavelmente não melhorará a precisão em nosso benchmark.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary