No se requiere conocimiento de doctorado: Un desafío de razonamiento para modelos de lenguaje grandes

Resumen

Los benchmarks existentes para modelos de vanguardia a menudo evalúan conocimientos especializados de nivel de doctorado que resultan difíciles de comprender para los no expertos. En contraste, presentamos un benchmark basado en el Desafío de Rompecabezas del Domingo de NPR que solo requiere conocimientos generales. Nuestro benchmark es desafiante tanto para humanos como para modelos, sin embargo, las soluciones correctas son fáciles de verificar y los errores de los modelos son fáciles de identificar. Nuestro trabajo revela brechas de capacidad que no son evidentes en los benchmarks existentes: OpenAI o1 supera significativamente a otros modelos de razonamiento que están a la par en benchmarks que evalúan conocimientos especializados. Además, nuestro análisis de las salidas de razonamiento descubre nuevos tipos de fallos. Por ejemplo, DeepSeek R1 a menudo se rinde con un "Me rindo" antes de proporcionar una respuesta que sabe que es incorrecta. R1 también puede ser notablemente "incierto" en su salida y, en casos raros, no "termina de pensar", lo que sugiere la necesidad de una técnica en tiempo de inferencia para "concluir" antes de alcanzar el límite de la ventana de contexto. También cuantificamos la efectividad de razonar por más tiempo con R1 y Gemini Thinking para identificar el punto más allá del cual es poco probable que más razonamiento mejore la precisión en nuestro benchmark.

English

Existing benchmarks for frontier models often test specialized, ``PhD-level'' knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models, however correct solutions are easy to verify, and models' mistakes are easy to spot. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models that are on par on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ``I give up'' before providing an answer that it knows is wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases, it does not ``finish thinking,'' which suggests the need for an inference-time technique to ``wrap up'' before the context window limit is reached. We also quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.

No se requiere conocimiento de doctorado: Un desafío de razonamiento para modelos de lenguaje grandes

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

Resumen

Support