VideoGameBench : Les modèles vision-langage peuvent-ils terminer des jeux vidéo populaires ?
VideoGameBench: Can Vision-Language Models complete popular video games?
May 23, 2025
papers.authors: Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont obtenu des résultats impressionnants sur des benchmarks de codage et de mathématiques qui sont difficiles pour les humains, mais leur capacité à accomplir des tâches qui sont naturelles pour les humains—telles que la perception, la navigation spatiale et la gestion de la mémoire—reste peu étudiée. Les jeux vidéo réels sont conçus pour être intuitifs à apprendre et à maîtriser en exploitant les biais inductifs innés des humains, ce qui en fait un terrain d'essai idéal pour évaluer ces capacités dans les VLMs. Dans cette optique, nous présentons VideoGameBench, un benchmark composé de 10 jeux vidéo populaires des années 1990 avec lesquels les VLMs interagissent directement en temps réel. VideoGameBench met les modèles au défi de terminer des jeux entiers en ayant accès uniquement à des entrées visuelles brutes et à une description de haut niveau des objectifs et des contrôles, ce qui constitue une rupture significative par rapport aux configurations existantes qui reposent sur des échafaudages spécifiques au jeu et des informations auxiliaires. Nous gardons trois des jeux secrets pour encourager des solutions qui généralisent à des environnements inconnus. Nos expériences montrent que les modèles vision-langage de pointe peinent à progresser au-delà du début de chaque jeu. Nous constatons que la latence d'inférence est une limitation majeure des modèles de pointe dans un contexte temps réel ; par conséquent, nous introduisons VideoGameBench Lite, un mode où le jeu est mis en pause en attendant la prochaine action du modèle de langage. Le meilleur modèle, Gemini 2.5 Pro, ne complète que 0,48 % de VideoGameBench et 1,6 % de VideoGameBench Lite. Nous espérons que la formalisation des compétences humaines mentionnées ci-dessus dans ce benchmark stimulera les progrès dans ces directions de recherche.
English
Vision-language models (VLMs) have achieved strong results on coding and math
benchmarks that are challenging for humans, yet their ability to perform tasks
that come naturally to humans--such as perception, spatial navigation, and
memory management--remains understudied. Real video games are crafted to be
intuitive for humans to learn and master by leveraging innate inductive biases,
making them an ideal testbed for evaluating such capabilities in VLMs. To this
end, we introduce VideoGameBench, a benchmark consisting of 10 popular video
games from the 1990s that VLMs directly interact with in real-time.
VideoGameBench challenges models to complete entire games with access to only
raw visual inputs and a high-level description of objectives and controls, a
significant departure from existing setups that rely on game-specific
scaffolding and auxiliary information. We keep three of the games secret to
encourage solutions that generalize to unseen environments. Our experiments
show that frontier vision-language models struggle to progress beyond the
beginning of each game. We find inference latency to be a major limitation of
frontier models in the real-time setting; therefore, we introduce
VideoGameBench Lite, a setting where the game pauses while waiting for the LM's
next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of
VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization
of the human skills mentioned above into this benchmark motivates progress in
these research directions.