AI Gamestore: Avaliação Escalável e Aberta da Inteligência Geral de Máquinas através de Jogos Humanos

Resumo

A avaliação rigorosa da inteligência das máquinas em comparação com o amplo espectro da inteligência geral humana tornou-se cada vez mais importante e desafiadora nesta era de rápido avanço tecnológico. Os benchmarks convencionais de IA normalmente avaliam apenas capacidades específicas em um leque limitado de atividades humanas. A maioria também é estática, saturando-se rapidamente à medida que os desenvolvedores otimizam para eles, explícita ou implicitamente. Propomos que uma forma mais promissora de avaliar a inteligência geral semelhante à humana em sistemas de IA é através de uma forma particularmente forte de jogo geral: estudar como e quão bem eles jogam e aprendem a jogar todos os jogos humanos concebíveis, em comparação com jogadores humanos com o mesmo nível de experiência, tempo ou outros recursos. Definimos um "jogo humano" como um jogo concebido por humanos para humanos, e argumentamos a favor da adequação avaliativa deste espaço de todos os jogos que as pessoas podem imaginar e desfrutar – o "Multiverso dos Jogos Humanos". Dando um primeiro passo em direção a esta visão, apresentamos o AI GameStore, uma plataforma escalável e de natureza aberta que utiliza LLMs com humanos no ciclo para sintetizar novos jogos humanos representativos, através do fornecimento e adaptação automáticos de variantes padronizadas e containerizadas de ambientes de jogo a partir de plataformas populares de jogos digitais humanos. Como prova de conceito, gerámos 100 desses jogos com base nos rankings principais da Apple App Store e da Steam, e avaliamos sete modelos de visão e linguagem (VLMs) de vanguarda em episódios curtos de jogo. Os melhores modelos alcançaram menos de 10% da pontuação média humana na maioria dos jogos, e lutaram especialmente com jogos que desafiam a aprendizagem de modelos do mundo, a memória e o planeamento. Concluímos com um conjunto de próximos passos para desenvolver o AI GameStore como uma forma prática de medir e impulsionar o progresso em direção a uma inteligência geral semelhante à humana em máquinas.

English

Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.

AI Gamestore: Avaliação Escalável e Aberta da Inteligência Geral de Máquinas através de Jogos Humanos

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Resumo

Support