No se requiere conocimiento de doctorado: Un desafío de razonamiento para modelos de lenguaje grandes
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Autores: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Resumen
Los benchmarks existentes para modelos de vanguardia a menudo evalúan conocimientos especializados de nivel de doctorado que resultan difíciles de comprender para los no expertos. En contraste, presentamos un benchmark basado en el Desafío de Rompecabezas del Domingo de NPR que solo requiere conocimientos generales. Nuestro benchmark es desafiante tanto para humanos como para modelos, sin embargo, las soluciones correctas son fáciles de verificar y los errores de los modelos son fáciles de identificar. Nuestro trabajo revela brechas de capacidad que no son evidentes en los benchmarks existentes: OpenAI o1 supera significativamente a otros modelos de razonamiento que están a la par en benchmarks que evalúan conocimientos especializados. Además, nuestro análisis de las salidas de razonamiento descubre nuevos tipos de fallos. Por ejemplo, DeepSeek R1 a menudo se rinde con un "Me rindo" antes de proporcionar una respuesta que sabe que es incorrecta. R1 también puede ser notablemente "incierto" en su salida y, en casos raros, no "termina de pensar", lo que sugiere la necesidad de una técnica en tiempo de inferencia para "concluir" antes de alcanzar el límite de la ventana de contexto. También cuantificamos la efectividad de razonar por más tiempo con R1 y Gemini Thinking para identificar el punto más allá del cual es poco probable que más razonamiento mejore la precisión en nuestro benchmark.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary