Non è richiesta una conoscenza da dottorato: una sfida di ragionamento per modelli linguistici di grandi dimensioni
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Autori: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Abstract
I benchmark esistenti per modelli di frontiera spesso testano conoscenze specializzate di livello "PhD" che sono difficili da comprendere per i non esperti. In contrasto, presentiamo un benchmark basato sulla Sfida Enigmistica della Domenica NPR che richiede solo conoscenze generali. Il nostro benchmark è impegnativo sia per gli esseri umani che per i modelli, tuttavia le soluzioni corrette sono facili da verificare e gli errori dei modelli sono facili da individuare. Il nostro lavoro rivela lacune nelle capacità che non sono evidenti nei benchmark esistenti: OpenAI o1 supera significativamente altri modelli di ragionamento che sono allo stesso livello nei benchmark che testano conoscenze specializzate. Inoltre, la nostra analisi delle uscite di ragionamento scopre nuovi tipi di fallimenti. Ad esempio, DeepSeek R1 spesso si arrende con "Mi arrendo" prima di fornire una risposta che sa essere sbagliata. R1 può anche essere notevolmente "incerto" nella sua uscita e in casi rari, non "finisce di pensare", il che suggerisce la necessità di una tecnica di inferenza al momento dell'esecuzione per "concludere" prima di raggiungere il limite della finestra di contesto. Quantifichiamo anche l'efficacia del ragionamento prolungato con R1 e Gemini Thinking per identificare il punto oltre il quale è improbabile che ulteriore ragionamento migliori l'accuratezza nel nostro benchmark.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary