Pas besoin de doctorat : un défi de raisonnement pour les grands modèles de langage
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Auteurs: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Résumé
Les benchmarks existants pour les modèles de pointe testent souvent des connaissances spécialisées de niveau doctorat qui sont difficiles à saisir pour les non-experts. En revanche, nous présentons un benchmark basé sur le Défi de l'Énigme du Dimanche de NPR qui ne nécessite que des connaissances générales. Notre benchmark est exigeant à la fois pour les humains et les modèles, cependant les solutions correctes sont faciles à vérifier et les erreurs des modèles sont faciles à repérer. Notre travail révèle des lacunes de capacité qui ne sont pas évidentes dans les benchmarks existants : OpenAI o1 surpasse significativement d'autres modèles de raisonnement qui sont à la hauteur sur des benchmarks testant des connaissances spécialisées. De plus, notre analyse des sorties de raisonnement met en lumière de nouveaux types d'échecs. Par exemple, DeepSeek R1 concède souvent avec un "Je donne ma langue au chat" avant de fournir une réponse qu'il sait être fausse. R1 peut également être remarquablement "incertain" dans sa sortie et, dans de rares cas, il ne "termine pas sa réflexion", ce qui suggère la nécessité d'une technique d'inférence en temps réel pour "conclure" avant d'atteindre la limite de la fenêtre contextuelle. Nous quantifions également l'efficacité de raisonner plus longuement avec R1 et Gemini Thinking pour identifier le point au-delà duquel davantage de raisonnement est peu probable d'améliorer la précision sur notre benchmark.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary