ChatPaper.aiChatPaper

La Prueba Imposible: Un Conjunto de Datos Insoluble para 2024 y una Oportunidad para una AGI Cuestionario

The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

November 20, 2024
Autores: David Noever, Forrest McKee
cs.AI

Resumen

Esta investigación introduce un nuevo marco de evaluación diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para reconocer la incertidumbre en 675 problemas fundamentalmente insolubles. Utilizando un conjunto de datos seleccionado de preguntas de desafío de nivel de posgrado con respuestas intencionalmente desconocidas, evaluamos doce LLMs de última generación, incluyendo modelos de código abierto y cerrado, en su propensión a admitir la ignorancia en lugar de generar respuestas plausibles pero incorrectas. Los mejores modelos obtuvieron rangos de precisión del 62 al 68% al admitir que la solución del problema era desconocida en campos que van desde la biología hasta la filosofía y las matemáticas. Observamos una relación inversa entre la dificultad del problema y la precisión del modelo, con GPT-4 demostrando tasas más altas de reconocimiento de la incertidumbre en problemas más desafiantes (35.8%) en comparación con los más simples (20.0%). Este patrón indica que los modelos pueden ser más propensos a generar respuestas especulativas cuando los problemas parecen más abordables. El estudio también reveló variaciones significativas entre las categorías de problemas, con los modelos mostrando dificultades para reconocer la incertidumbre en problemas de invención y NP-difíciles, mientras que se desempeñaban relativamente mejor en desafíos filosóficos y psicológicos. Estos resultados contribuyen al creciente cuerpo de investigación sobre la evaluación de la inteligencia artificial general (AGI, por sus siglas en inglés) al resaltar la importancia del reconocimiento de la incertidumbre como un componente crítico de la evaluación futura de la inteligencia de las máquinas. Esta prueba de imposibilidad extiende así los marcos teóricos previos para las pruebas de inteligencia universal al proporcionar evidencia empírica de las limitaciones actuales en la capacidad de los LLMs para reconocer los límites de su propio conocimiento, sugiriendo nuevas direcciones para mejorar las arquitecturas de entrenamiento de modelos y los enfoques de evaluación.
English
This research introduces a novel evaluation framework designed to assess large language models' (LLMs) ability to acknowledge uncertainty on 675 fundamentally unsolvable problems. Using a curated dataset of graduate-level grand challenge questions with intentionally unknowable answers, we evaluated twelve state-of-the-art LLMs, including both open and closed-source models, on their propensity to admit ignorance rather than generate plausible but incorrect responses. The best models scored in 62-68% accuracy ranges for admitting the problem solution was unknown in fields ranging from biology to philosophy and mathematics. We observed an inverse relationship between problem difficulty and model accuracy, with GPT-4 demonstrating higher rates of uncertainty acknowledgment on more challenging problems (35.8%) compared to simpler ones (20.0%). This pattern indicates that models may be more prone to generate speculative answers when problems appear more tractable. The study also revealed significant variations across problem categories, with models showing difficulty in acknowledging uncertainty in invention and NP-hard problems while performing relatively better on philosophical and psychological challenges. These results contribute to the growing body of research on artificial general intelligence (AGI) assessment by highlighting the importance of uncertainty recognition as a critical component of future machine intelligence evaluation. This impossibility test thus extends previous theoretical frameworks for universal intelligence testing by providing empirical evidence of current limitations in LLMs' ability to recognize their own knowledge boundaries, suggesting new directions for improving model training architectures and evaluation approaches.

Summary

AI-Generated Summary

PDF72November 26, 2024