AI Gamestore: Schaalbare, Open-Einde Evaluatie van Algemene Machine-intelligentie met Menselijke Spellen
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
February 19, 2026
Auteurs: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
cs.AI
Samenvatting
Het rigoureus evalueren van machine-intelligentie tegen het brede spectrum van de menselijke algemene intelligentie is in dit tijdperk van snelle technologische vooruitgang steeds belangrijker en uitdagender geworden. Conventionele AI-benchmarks beoordelen doorgaans slechts beperkte capaciteiten binnen een smal bereik van menselijke activiteit. De meeste zijn ook statisch en raken snel verzadigd doordat ontwikkelaars er expliciet of impliciet voor optimaliseren. Wij stellen voor dat een veelbelovendere manier om mensachtige algemene intelligentie in AI-systemen te evalueren, ligt in een bijzonder sterke vorm van general game playing: het bestuderen van hoe, en hoe goed, ze alle denkbare menselijke spellen spelen en leren spelen, in vergelijking met menselijke spelers met hetzelfde niveau van ervaring, tijd of andere middelen. We definiëren een "menselijk spel" als een spel dat door mensen is ontworpen voor mensen, en beargumenteren de geschiktheid van deze ruimte van alle spellen die mensen zich kunnen voorstellen en leuk vinden – het "Multiversum van Menselijke Spellen" – voor evaluatiedoeleinden. Als eerste stap naar deze visie introduceren we de AI GameStore, een schaalbare en open-ended platform dat gebruikmaakt van LLM's met menselijke tussenkomst om nieuwe representatieve menselijke spellen te synthetiseren, door gestandaardiseerde en gecontaineriseerde varianten van spelomgevingen automatisch te verkrijgen en aan te passen van populaire digitale gamingplatforms voor mensen. Als proof of concept genereerden we 100 van dergelijke spellen op basis van de toplijsten van de Apple App Store en Steam, en evalueerden we zeven grensverleggende vision-language modellen (VLM's) op korte speelsessies. De beste modellen behaalden minder dan 10% van de gemiddelde menselijke score op de meerderheid van de spellen, en hadden vooral moeite met spellen die wereldmodellerend leren, geheugen en planning uitdagen. We sluiten af met een reeks volgende stappen voor de verdere ontwikkeling van de AI GameStore als een praktische manier om vooruitgang richting mensachtige algemene intelligentie in machines te meten en te stimuleren.
English
Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.