ChatPaper.aiChatPaper

AI Gamestore: Evaluación Escalable y Abierta de la Inteligencia General de Máquinas mediante Juegos Humanos

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

February 19, 2026
Autores: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
cs.AI

Resumen

Evaluar rigurosamente la inteligencia artificial frente al amplio espectro de la inteligencia general humana se ha vuelto cada vez más importante y desafiante en esta era de rápido avance tecnológico. Los puntos de referencia convencionales de IA suelen evaluar únicamente capacidades específicas en un rango limitado de la actividad humana. La mayoría también son estáticos, saturándose rápidamente a medida que los desarrolladores optimizan explícita o implícitamente para ellos. Proponemos que una forma más prometedora de evaluar la inteligencia general similar a la humana en los sistemas de IA es a través de una forma particularmente sólida de juego general: estudiar cómo y qué tan bien juegan y aprenden a jugar todos los juegos humanos concebibles, en comparación con jugadores humanos con el mismo nivel de experiencia, tiempo u otros recursos. Definimos un "juego humano" como un juego diseñado por humanos para humanos, y argumentamos a favor de la idoneidad evaluativa de este espacio de todos los juegos que las personas pueden imaginar y disfrutar: el "Multiverso de los Juegos Humanos". Dando un primer paso hacia esta visión, presentamos el AI GameStore, una plataforma escalable y de código abierto que utiliza modelos de lenguaje grandes (LLM) con humanos en el ciclo para sintetizar nuevos juegos humanos representativos, mediante la obtención y adaptación automática de variantes estandarizadas y contenerizadas de entornos de juego a partir de plataformas populares de juegos digitales humanos. Como prueba de concepto, generamos 100 de estos juegos basados en las listas principales de Apple App Store y Steam, y evaluamos siete modelos vision-lenguaje (VLM) de vanguardia en episodios cortos de juego. Los mejores modelos lograron menos del 10% del puntaje promedio humano en la mayoría de los juegos, y especialmente lucharon con juegos que desafían el aprendizaje de modelos del mundo, la memoria y la planificación. Concluimos con un conjunto de próximos pasos para desarrollar el AI GameStore como una forma práctica de medir e impulsar el progreso hacia una inteligencia general similar a la humana en las máquinas.
English
Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.
PDF83February 28, 2026