Der Unmögliche Test: Ein unlösbares Datenset von 2024 und eine Chance für eine AGI-Quiz.
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Autoren: David Noever, Forrest McKee
cs.AI
Zusammenfassung
Diese Forschung stellt ein neuartiges Bewertungsrahmen vor, der entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, Unsicherheit bei 675 grundsätzlich unlösbaren Problemen anzuerkennen. Unter Verwendung eines kuratierten Datensatzes von Fragen auf Graduiertenniveau mit absichtlich unbekannten Antworten haben wir zwölf hochmoderne LLMs bewertet, einschließlich sowohl Open-Source- als auch Closed-Source-Modelle, hinsichtlich ihrer Neigung, Unwissenheit zuzugeben, anstatt plausible, aber falsche Antworten zu generieren. Die besten Modelle erzielten Genauigkeitsbereiche von 62-68% für die Anerkennung, dass die Lösung des Problems unbekannt war, in Bereichen von Biologie über Philosophie bis hin zu Mathematik. Wir beobachteten eine umgekehrte Beziehung zwischen der Schwierigkeit des Problems und der Modellgenauigkeit, wobei GPT-4 höhere Raten der Unsicherheitsanerkennung bei anspruchsvolleren Problemen (35,8%) im Vergleich zu einfacheren (20,0%) aufwies. Dieses Muster deutet darauf hin, dass Modelle dazu neigen könnten, spekulative Antworten zu generieren, wenn Probleme scheinbar lösbar erscheinen. Die Studie zeigte auch signifikante Variationen zwischen Problemkategorien, wobei Modelle Schwierigkeiten hatten, Unsicherheit bei Erfindungs- und NP-schweren Problemen anzuerkennen, während sie relativ besser bei philosophischen und psychologischen Herausforderungen abschnitten. Diese Ergebnisse tragen zur wachsenden Forschung im Bereich der künstlichen allgemeinen Intelligenz (AGI) bei, indem sie die Bedeutung der Anerkennung von Unsicherheit als entscheidende Komponente für die zukünftige Bewertung maschineller Intelligenz hervorheben. Dieser Unmöglichkeitstest erweitert somit frühere theoretische Rahmenbedingungen für den Test universeller Intelligenz, indem er empirische Beweise für aktuelle Einschränkungen in der Fähigkeit von LLMs zur Erkennung ihrer eigenen Wissensgrenzen liefert und neue Wege zur Verbesserung von Modelltrainingsarchitekturen und Bewertungsansätzen aufzeigt.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.