KI-Spielestore: Skalierbare, offene Bewertung der maschinellen Allgemeinintelligenz mit menschlichen Spielen
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
February 19, 2026
Autoren: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
cs.AI
Zusammenfassung
Eine rigorose Bewertung der maschinellen Intelligenz anhand des breiten Spektrums der menschlichen Allgemeinintelligenz ist in dieser Ära des raschen technologischen Fortschritts zunehmend wichtig und herausfordernd geworden. Herkömmliche KI-Benchmarks bewerten typischerweise nur eingeschränkte Fähigkeiten in einem begrenzten Bereich menschlicher Aktivitäten. Die meisten sind zudem statisch und sättigen sich schnell, da Entwickler explizit oder implizit für sie optimieren. Wir schlagen vor, dass eine vielversprechendere Methode zur Bewertung einer menschenähnlichen Allgemeinintelligenz in KI-Systemen in einer besonders starken Form des General Game Playing liegt: der Untersuchung, wie und wie gut sie alle denkbaren menschlichen Spiele spielen und erlernen, im Vergleich zu menschlichen Spielern mit demselben Erfahrungsniveau, derselben Zeit oder anderen Ressourcen. Wir definieren ein "menschliches Spiel" als ein von Menschen für Menschen entworfenes Spiel und argumentieren für die Eignung dieses Raums aller solcher Spiele, die sich Menschen vorstellen können und an denen sie Freude haben – das "Multiversum der menschlichen Spiele". Als ersten Schritt in Richtung dieser Vision stellen wir den AI GameStore vor, eine skalierbare und erweiterbare Plattform, die LLMs mit menschlicher Beteiligung nutzt, um neue repräsentative menschliche Spiele zu synthetisieren, indem standardisierte und containerisierte Varianten von Spielumgebungen aus beliebten digitalen Human-Gaming-Plattformen automatisch bezogen und angepasst werden. Als Proof of Concept generierten wir 100 solcher Spiele basierend auf den Top-Charts des Apple App Store und von Steam und bewerteten sieben fortschrittliche Vision-Language-Modelle (VLMs) anhand kurzer Spielepisoden. Die besten Modelle erreichten bei der Mehrheit der Spiele weniger als 10 % der durchschnittlichen menschlichen Punktzahl und hatten besonders mit Spielen zu kämpfen, die das Lernen von Weltmodellen, Gedächtnis und Planungsfähigkeiten herausfordern. Wir schließen mit einer Reihe von nächsten Schritten zum Ausbau des AI GameStore als praktische Methode, um Fortschritte in Richtung einer menschenähnlichen Allgemeinintelligenz in Maschinen zu messen und voranzutreiben.
English
Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.