VideoGameBench : Les modèles vision-langage peuvent-ils terminer des jeux vidéo populaires ?

papers.abstract

Les modèles vision-langage (VLMs) ont obtenu des résultats impressionnants sur des benchmarks de codage et de mathématiques qui sont difficiles pour les humains, mais leur capacité à accomplir des tâches qui sont naturelles pour les humains—telles que la perception, la navigation spatiale et la gestion de la mémoire—reste peu étudiée. Les jeux vidéo réels sont conçus pour être intuitifs à apprendre et à maîtriser en exploitant les biais inductifs innés des humains, ce qui en fait un terrain d'essai idéal pour évaluer ces capacités dans les VLMs. Dans cette optique, nous présentons VideoGameBench, un benchmark composé de 10 jeux vidéo populaires des années 1990 avec lesquels les VLMs interagissent directement en temps réel. VideoGameBench met les modèles au défi de terminer des jeux entiers en ayant accès uniquement à des entrées visuelles brutes et à une description de haut niveau des objectifs et des contrôles, ce qui constitue une rupture significative par rapport aux configurations existantes qui reposent sur des échafaudages spécifiques au jeu et des informations auxiliaires. Nous gardons trois des jeux secrets pour encourager des solutions qui généralisent à des environnements inconnus. Nos expériences montrent que les modèles vision-langage de pointe peinent à progresser au-delà du début de chaque jeu. Nous constatons que la latence d'inférence est une limitation majeure des modèles de pointe dans un contexte temps réel ; par conséquent, nous introduisons VideoGameBench Lite, un mode où le jeu est mis en pause en attendant la prochaine action du modèle de langage. Le meilleur modèle, Gemini 2.5 Pro, ne complète que 0,48 % de VideoGameBench et 1,6 % de VideoGameBench Lite. Nous espérons que la formalisation des compétences humaines mentionnées ci-dessus dans ce benchmark stimulera les progrès dans ces directions de recherche.

English

Vision-language models (VLMs) have achieved strong results on coding and math benchmarks that are challenging for humans, yet their ability to perform tasks that come naturally to humans--such as perception, spatial navigation, and memory management--remains understudied. Real video games are crafted to be intuitive for humans to learn and master by leveraging innate inductive biases, making them an ideal testbed for evaluating such capabilities in VLMs. To this end, we introduce VideoGameBench, a benchmark consisting of 10 popular video games from the 1990s that VLMs directly interact with in real-time. VideoGameBench challenges models to complete entire games with access to only raw visual inputs and a high-level description of objectives and controls, a significant departure from existing setups that rely on game-specific scaffolding and auxiliary information. We keep three of the games secret to encourage solutions that generalize to unseen environments. Our experiments show that frontier vision-language models struggle to progress beyond the beginning of each game. We find inference latency to be a major limitation of frontier models in the real-time setting; therefore, we introduce VideoGameBench Lite, a setting where the game pauses while waiting for the LM's next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization of the human skills mentioned above into this benchmark motivates progress in these research directions.

VideoGameBench : Les modèles vision-langage peuvent-ils terminer des jeux vidéo populaires ?

VideoGameBench: Can Vision-Language Models complete popular video games?

papers.abstract

Support