AI Gamestore : Évaluation Évolutive et Ouverte de l'Intelligence Générale des Machines par les Jeux Humains
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
February 19, 2026
Auteurs: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
cs.AI
Résumé
L'évaluation rigoureuse de l'intelligence artificielle par rapport au large spectre de l'intelligence générale humaine est devenue de plus en plus importante et difficile à l'ère des progrès technologiques rapides. Les benchmarks conventionnels d'IA évaluent généralement des capacités restreintes dans un domaine limité d'activité humaine. La plupart sont également statiques et se saturent rapidement lorsque les développeurs optimisent explicitement ou implicitement leurs systèmes pour ces tests. Nous proposons qu'une approche plus prometteuse pour évaluer l'intelligence générale de type humain dans les systèmes d'IA passe par une forme particulièrement exigeante de jeu général : étudier comment, et avec quelle efficacité, ces systèmes jouent et apprennent à jouer à tous les jeux humains concevables, en les comparant à des joueurs humains disposant du même niveau d'expérience, de temps ou d'autres ressources. Nous définissons un « jeu humain » comme un jeu conçu par des humains pour des humains, et nous défendons la pertinence évaluative de l'espace constitué par tous ces jeux que les gens peuvent imaginer et apprécier – le « Multivers des Jeux Humains ». Faisant un premier pas vers cette vision, nous présentons l'AI GameStore, une plateforme évolutive et ouverte qui utilise des LLM avec des humains dans la boucle pour synthétiser de nouveaux jeux humains représentatifs, en sourçant et adaptant automatiquement des variantes standardisées et conteneurisées d'environnements de jeu provenant de plateformes de jeu numérique humaines populaires. Comme preuve de concept, nous avons généré 100 de ces jeux basés sur les classements tops de l'Apple App Store et de Steam, et évalué sept modèles vision-langage (VLM) de pointe sur de courtes sessions de jeu. Les meilleurs modèles ont obtenu moins de 10 % du score moyen humain sur la majorité des jeux, et ont particulièrement éprouvé des difficultés avec les jeux qui sollicitent l'apprentissage de modèles du monde, la mémoire et la planification. Nous concluons par un ensemble de prochaines étapes pour développer l'AI GameStore en tant qu'outil pratique pour mesurer et stimuler les progrès vers une intelligence générale de type humain dans les machines.
English
Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.