De Onmogelijke Test: Een dataset uit 2024 die niet oplosbaar is en een kans voor een AGI-quiz.
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Auteurs: David Noever, Forrest McKee
cs.AI
Samenvatting
Dit onderzoek introduceert een nieuw evaluatiekader dat is ontworpen om de mogelijkheid van grote taalmodellen (LLM's) te beoordelen om onzekerheid te erkennen bij 675 fundamenteel onoplosbare problemen. Met behulp van een samengestelde dataset van uitdagende vragen op graduate-niveau met opzettelijk onkenbare antwoorden, hebben we twaalf toonaangevende LLM's geëvalueerd, inclusief zowel open source als gesloten source modellen, op hun neiging om onwetendheid toe te geven in plaats van plausibele maar onjuiste antwoorden te genereren. De beste modellen behaalden scores in het bereik van 62-68% nauwkeurigheid voor het toegeven dat de oplossing van het probleem onbekend was op gebieden variërend van biologie tot filosofie en wiskunde. We observeerden een omgekeerde relatie tussen probleemcomplexiteit en modelnauwkeurigheid, waarbij GPT-4 hogere percentages van onzekerheidserkenning vertoonde bij meer uitdagende problemen (35,8%) vergeleken met eenvoudigere problemen (20,0%). Dit patroon geeft aan dat modellen meer geneigd kunnen zijn om speculatieve antwoorden te genereren wanneer problemen lijken oplosbaar te zijn. Het onderzoek onthulde ook significante variaties tussen probleemcategorieën, waarbij modellen moeite hadden met het erkennen van onzekerheid bij uitvindings- en NP-moeilijke problemen, terwijl ze relatief beter presteerden bij filosofische en psychologische uitdagingen. Deze resultaten dragen bij aan het groeiende onderzoek naar algemene kunstmatige intelligentie (AGI) evaluatie door het belang van het herkennen van onzekerheid te benadrukken als een cruciaal onderdeel van toekomstige machine intelligentie evaluatie. Deze onmogelijkheidstest breidt dus eerdere theoretische kaders voor universele intelligentietests uit door empirisch bewijs te leveren van de huidige beperkingen in het vermogen van LLM's om hun eigen kennisgrenzen te herkennen, wat wijst op nieuwe richtingen voor het verbeteren van modeltrainingsarchitecturen en evaluatiebenaderingen.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary