PhD-Wissen nicht erforderlich: Eine Herausforderung des Denkens für große Sprachmodelle
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
Autoren: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
Zusammenfassung
Bestehende Benchmarks für Spitzenmodelle testen oft spezialisiertes, auf Doktoratsniveau liegendes Wissen, das für Nicht-Experten schwer zu erfassen ist. Im Gegensatz dazu präsentieren wir einen Benchmark, der auf der NPR Sunday Puzzle Challenge basiert und nur allgemeines Wissen erfordert. Unser Benchmark ist sowohl für Menschen als auch für Modelle anspruchsvoll, jedoch sind korrekte Lösungen leicht zu überprüfen und Modellfehler leicht zu erkennen.
Unsere Arbeit zeigt Fähigkeitslücken auf, die in bestehenden Benchmarks nicht offensichtlich sind: OpenAI o1 übertrifft signifikant andere Schlussfolgerungsmodelle, die auf Benchmarks, die spezialisiertes Wissen testen, gleichauf sind. Darüber hinaus deckt unsere Analyse der Schlussfolgerungsergebnisse neue Arten von Fehlern auf. DeepSeek R1 gibt beispielsweise oft mit "Ich gebe auf" auf, bevor es eine Antwort liefert, von der es weiß, dass sie falsch ist. R1 kann auch in seiner Ausgabe bemerkenswert "unsicher" sein und in seltenen Fällen "das Denken nicht beenden", was auf die Notwendigkeit einer Inferenzzeit-Technik hinweist, um vor Erreichen des Kontextfensterlimits "abzuschließen". Wir quantifizieren auch die Wirksamkeit des längeren Schlussfolgerns mit R1 und Gemini Thinking, um den Punkt zu identifizieren, an dem eine weitere Schlussfolgerung unwahrscheinlich ist, um die Genauigkeit in unserem Benchmark zu verbessern.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary