Não é Necessário Conhecimento de Doutorado: Um Desafio de Raciocínio para Modelos de Linguagem Grandes

Resumo

Os benchmarks existentes para modelos de vanguarda frequentemente testam conhecimentos especializados de nível de "doutorado" que são difíceis de serem compreendidos por não especialistas. Em contraste, apresentamos um benchmark baseado no Desafio de Quebra-Cabeça Dominical da NPR que requer apenas conhecimento geral. Nosso benchmark é desafiador tanto para humanos quanto para modelos, no entanto, as soluções corretas são fáceis de verificar, e os erros dos modelos são fáceis de identificar. Nosso trabalho revela lacunas de capacidade que não são evidentes nos benchmarks existentes: o OpenAI o1 supera significativamente outros modelos de raciocínio que estão no mesmo nível em benchmarks que testam conhecimento especializado. Além disso, nossa análise das saídas de raciocínio revela novos tipos de falhas. O DeepSeek R1, por exemplo, frequentemente desiste com um "Eu desisto" antes de fornecer uma resposta que sabe estar errada. R1 também pode ser notavelmente "incerto" em sua saída e, em casos raros, não "conclui o pensamento", o que sugere a necessidade de uma técnica de tempo de inferência para "finalizar" antes que o limite da janela de contexto seja atingido. Também quantificamos a eficácia de raciocinar por mais tempo com R1 e Gemini Thinking para identificar o ponto além do qual mais raciocínio provavelmente não melhorará a precisão em nosso benchmark.

English

Existing benchmarks for frontier models often test specialized, ``PhD-level'' knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models, however correct solutions are easy to verify, and models' mistakes are easy to spot. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models that are on par on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ``I give up'' before providing an answer that it knows is wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases, it does not ``finish thinking,'' which suggests the need for an inference-time technique to ``wrap up'' before the context window limit is reached. We also quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.

Não é Necessário Conhecimento de Doutorado: Um Desafio de Raciocínio para Modelos de Linguagem Grandes

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

Resumo

Support