Geen PhD vereist: Een redeneeruitdaging voor grote taalmodellen
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Auteurs: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Samenvatting
Bestaande benchmarks voor geavanceerde modellen testen vaak gespecialiseerde, op doctoraatniveau kennis die moeilijk te begrijpen is voor niet-experts. In tegenstelling hiermee presenteren wij een benchmark gebaseerd op de NPR Sunday Puzzle Challenge die slechts algemene kennis vereist. Onze benchmark is uitdagend voor zowel mensen als modellen, echter correcte oplossingen zijn gemakkelijk te verifiëren en fouten van modellen zijn gemakkelijk te herkennen.
Ons werk onthult capaciteitsverschillen die niet duidelijk zijn in bestaande benchmarks: OpenAI o1 presteert aanzienlijk beter dan andere redeneringsmodellen die gelijkwaardig zijn aan benchmarks die gespecialiseerde kennis testen. Bovendien onthult onze analyse van redeneringsresultaten nieuwe soorten mislukkingen. DeepSeek R1 geeft bijvoorbeeld vaak toe met "Ik geef op" voordat het een antwoord geeft dat het weet dat fout is. R1 kan ook opmerkelijk "onzeker" zijn in zijn output en in zeldzame gevallen "niet klaar zijn met nadenken", wat suggereert dat er een inferentietechniek nodig is om "af te ronden" voordat de contextvensterlimiet is bereikt. We kwantificeren ook de effectiviteit van langer redeneren met R1 en Gemini Thinking om het punt te identificeren waarop meer redeneren waarschijnlijk de nauwkeurigheid op onze benchmark niet zal verbeteren.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary