AI Gamestore: Valutazione Scalabile e Aperta dell'Intelligenza Generale delle Macchine tramite Giochi Umani
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
February 19, 2026
Autori: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
cs.AI
Abstract
Valutare rigorosamente l'intelligenza artificiale rispetto all'ampio spettro dell'intelligenza generale umana è diventato sempre più importante e impegnativo in questa era di rapido progresso tecnologico. I benchmark convenzionali di intelligenza artificiale valutano tipicamente solo capacità ristrette in un limitato ventaglio di attività umane. La maggior parte è anche statica, saturandosi rapidamente man mano che gli sviluppatori ottimizzano esplicitamente o implicitamente per essi. Proponiamo che un modo più promettente per valutare un'intelligenza generale simile a quella umana nei sistemi di IA sia attraverso una forma particolarmente forte di general game playing: studiare come e quanto bene essi giochino e imparino a giocare a tutti i giochi umani concepibili, rispetto a giocatori umani con lo stesso livello di esperienza, tempo o altre risorse. Definiamo un "gioco umano" come un gioco progettato da umani per umani, e sosteniamo l'idoneità valutativa di questo spazio di tutti i giochi che le persone possono immaginare e apprezzare – il "Multiverso dei Giochi Umani". Facendo un primo passo verso questa visione, introduciamo AI GameStore, una piattaforma scalabile e aperta che utilizza LLM con umani-in-the-loop per sintetizzare nuovi giochi umani rappresentativi, approvvigionando automaticamente e adattando varianti standardizzate e containerizzate di ambienti di gioco da piattaforme di gioco digitali umane popolari. Come prova di concetto, abbiamo generato 100 di questi giochi basandoci sulle classifiche principali di Apple App Store e Steam, e abbiamo valutato sette modelli visione-linguaggio (VLM) all'avanguardia su brevi episodi di gioco. I modelli migliori hanno ottenuto meno del 10% del punteggio umano medio sulla maggior parte dei giochi, e hanno particolarmente faticato con giochi che mettono alla prova l'apprendimento di modelli del mondo, la memoria e la pianificazione. Concludiamo delineando una serie di passi successivi per sviluppare AI GameStore come metodo pratico per misurare e guidare il progresso verso un'intelligenza generale simile a quella umana nelle macchine.
English
Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.