Le Test Impossible : Un ensemble de données insoluble de 2024 et une chance pour une AGI Quiz
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Auteurs: David Noever, Forrest McKee
cs.AI
Résumé
Cette recherche présente un nouveau cadre d'évaluation conçu pour évaluer la capacité des grands modèles de langage (GML) à reconnaître l'incertitude sur 675 problèmes fondamentalement insolubles. En utilisant un ensemble de données sélectionné de questions de défis de niveau universitaire avec des réponses intentionnellement inconnues, nous avons évalué douze GML de pointe, comprenant à la fois des modèles open source et propriétaires, sur leur propension à admettre l'ignorance plutôt que de générer des réponses plausibles mais incorrectes. Les meilleurs modèles ont obtenu des scores dans des plages de précision de 62 à 68 % pour reconnaître que la solution au problème était inconnue dans des domaines allant de la biologie à la philosophie et aux mathématiques. Nous avons observé une relation inverse entre la difficulté du problème et la précision du modèle, GPT-4 montrant des taux plus élevés de reconnaissance de l'incertitude sur des problèmes plus difficiles (35,8 %) par rapport à des problèmes plus simples (20,0 %). Ce schéma indique que les modèles peuvent être plus enclins à générer des réponses spéculatives lorsque les problèmes semblent plus abordables. L'étude a également révélé des variations significatives selon les catégories de problèmes, les modèles montrant des difficultés à reconnaître l'incertitude dans les problèmes d'invention et NP-difficiles tout en performant relativement mieux sur les défis philosophiques et psychologiques. Ces résultats contribuent au corpus croissant de recherches sur l'évaluation de l'intelligence artificielle générale (IAG) en soulignant l'importance de la reconnaissance de l'incertitude comme composante critique de l'évaluation future de l'intelligence artificielle. Ce test d'impossibilité étend ainsi les cadres théoriques précédents pour les tests d'intelligence universelle en fournissant des preuves empiriques des limitations actuelles dans la capacité des GML à reconnaître leurs propres limites de connaissance, suggérant de nouvelles orientations pour améliorer les architectures d'entraînement des modèles et les approches d'évaluation.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary