La Prueba Imposible: Un Conjunto de Datos Insoluble para 2024 y una Oportunidad para una AGI Cuestionario
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Autores: David Noever, Forrest McKee
cs.AI
Resumen
Esta investigación introduce un nuevo marco de evaluación diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para reconocer la incertidumbre en 675 problemas fundamentalmente insolubles. Utilizando un conjunto de datos seleccionado de preguntas de desafío de nivel de posgrado con respuestas intencionalmente desconocidas, evaluamos doce LLMs de última generación, incluyendo modelos de código abierto y cerrado, en su propensión a admitir la ignorancia en lugar de generar respuestas plausibles pero incorrectas. Los mejores modelos obtuvieron rangos de precisión del 62 al 68% al admitir que la solución del problema era desconocida en campos que van desde la biología hasta la filosofía y las matemáticas. Observamos una relación inversa entre la dificultad del problema y la precisión del modelo, con GPT-4 demostrando tasas más altas de reconocimiento de la incertidumbre en problemas más desafiantes (35.8%) en comparación con los más simples (20.0%). Este patrón indica que los modelos pueden ser más propensos a generar respuestas especulativas cuando los problemas parecen más abordables. El estudio también reveló variaciones significativas entre las categorías de problemas, con los modelos mostrando dificultades para reconocer la incertidumbre en problemas de invención y NP-difíciles, mientras que se desempeñaban relativamente mejor en desafíos filosóficos y psicológicos. Estos resultados contribuyen al creciente cuerpo de investigación sobre la evaluación de la inteligencia artificial general (AGI, por sus siglas en inglés) al resaltar la importancia del reconocimiento de la incertidumbre como un componente crítico de la evaluación futura de la inteligencia de las máquinas. Esta prueba de imposibilidad extiende así los marcos teóricos previos para las pruebas de inteligencia universal al proporcionar evidencia empírica de las limitaciones actuales en la capacidad de los LLMs para reconocer los límites de su propio conocimiento, sugiriendo nuevas direcciones para mejorar las arquitecturas de entrenamiento de modelos y los enfoques de evaluación.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary