Невозможный тест: Неразрешимый набор данных 2024 года и Шанс для ИИ общего интеллекта. Викторина
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Авторы: David Noever, Forrest McKee
cs.AI
Аннотация
Это исследование представляет новую систему оценки, разработанную для оценки способности крупных языковых моделей (LLM) признавать неопределенность на 675 фундаментально неразрешимых проблемах. Используя отобранный набор данных с вопросами высшего уровня сложности с преднамеренно неизвестными ответами, мы оценили двенадцать передовых LLM, включая как открытые, так и закрытые модели, по их склонности признавать невежество, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазонах точности от 62 до 68% в отношении признания того, что решение проблемы неизвестно в областях от биологии до философии и математики. Мы обнаружили обратную зависимость между сложностью проблемы и точностью модели, причем GPT-4 продемонстрировал более высокие показатели признания неопределенности на более сложных проблемах (35,8%) по сравнению с более простыми (20,0%). Этот шаблон указывает на то, что модели могут быть более склонны к генерации спекулятивных ответов, когда проблемы кажутся более разрешимыми. Исследование также выявило значительные вариации по категориям проблем, с моделями, испытывающими трудности в признании неопределенности в изобретательских и NP-сложных задачах, в то время как они относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят свой вклад в растущее направление исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Этот тест невозможности таким образом расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLM распознавать свои собственные границы знаний, указывая на новые направления для улучшения архитектур обучения моделей и подходов к оценке.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary