O Teste Impossível: Um Conjunto de Dados Insolúvel de 2024 e Uma Oportunidade para uma AGI em Forma de Quiz
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz
November 20, 2024
Autores: David Noever, Forrest McKee
cs.AI
Resumo
Esta pesquisa apresenta um novo framework de avaliação projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de reconhecer incertezas em 675 problemas fundamentalmente insolúveis. Utilizando um conjunto de dados selecionado de perguntas de desafios de nível de pós-graduação com respostas intencionalmente desconhecidas, avaliamos doze LLMs de ponta, incluindo modelos de código aberto e fechado, em sua propensão para admitir ignorância em vez de gerar respostas plausíveis, mas incorretas. Os melhores modelos obtiveram precisão na faixa de 62-68% para admitir que a solução do problema era desconhecida em áreas que vão desde biologia até filosofia e matemática. Observamos uma relação inversa entre a dificuldade do problema e a precisão do modelo, com o GPT-4 demonstrando taxas mais altas de reconhecimento de incerteza em problemas mais desafiadores (35,8%) em comparação com os mais simples (20,0%). Esse padrão indica que os modelos podem ser mais propensos a gerar respostas especulativas quando os problemas parecem mais tratáveis. O estudo também revelou variações significativas entre as categorias de problemas, com os modelos apresentando dificuldades em reconhecer incertezas em problemas de invenção e NP-difíceis, enquanto se saíam relativamente melhor em desafios filosóficos e psicológicos. Esses resultados contribuem para o crescente corpo de pesquisas sobre avaliação de inteligência artificial geral (AGI) ao destacar a importância do reconhecimento de incertezas como um componente crítico da avaliação futura da inteligência das máquinas. Este teste de impossibilidade estende assim os frameworks teóricos anteriores para testes de inteligência universal, fornecendo evidências empíricas das limitações atuais na capacidade dos LLMs de reconhecer seus próprios limites de conhecimento, sugerindo novas direções para melhorar as arquiteturas de treinamento de modelos e abordagens de avaliação.
English
This research introduces a novel evaluation framework designed to assess
large language models' (LLMs) ability to acknowledge uncertainty on 675
fundamentally unsolvable problems. Using a curated dataset of graduate-level
grand challenge questions with intentionally unknowable answers, we evaluated
twelve state-of-the-art LLMs, including both open and closed-source models, on
their propensity to admit ignorance rather than generate plausible but
incorrect responses. The best models scored in 62-68% accuracy ranges for
admitting the problem solution was unknown in fields ranging from biology to
philosophy and mathematics. We observed an inverse relationship between problem
difficulty and model accuracy, with GPT-4 demonstrating higher rates of
uncertainty acknowledgment on more challenging problems (35.8%) compared to
simpler ones (20.0%). This pattern indicates that models may be more prone to
generate speculative answers when problems appear more tractable. The study
also revealed significant variations across problem categories, with models
showing difficulty in acknowledging uncertainty in invention and NP-hard
problems while performing relatively better on philosophical and psychological
challenges. These results contribute to the growing body of research on
artificial general intelligence (AGI) assessment by highlighting the importance
of uncertainty recognition as a critical component of future machine
intelligence evaluation. This impossibility test thus extends previous
theoretical frameworks for universal intelligence testing by providing
empirical evidence of current limitations in LLMs' ability to recognize their
own knowledge boundaries, suggesting new directions for improving model
training architectures and evaluation approaches.Summary
AI-Generated Summary