VideoGameBench: I modelli visione-linguaggio possono completare videogiochi popolari?
VideoGameBench: Can Vision-Language Models complete popular video games?
May 23, 2025
Autori: Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno ottenuto risultati significativi su benchmark di codifica e matematica che sono impegnativi per gli esseri umani, ma la loro capacità di eseguire compiti che risultano naturali per gli umani—come la percezione, la navigazione spaziale e la gestione della memoria—rimane poco studiata. I videogiochi reali sono progettati per essere intuitivi da apprendere e padroneggiare sfruttando i bias induttivi innati, rendendoli un banco di prova ideale per valutare tali capacità nei VLMs. A tal fine, introduciamo VideoGameBench, un benchmark composto da 10 videogiochi popolari degli anni '90 con cui i VLMs interagiscono direttamente in tempo reale. VideoGameBench mette alla prova i modelli chiedendo loro di completare interi giochi avendo accesso solo a input visivi grezzi e a una descrizione ad alto livello degli obiettivi e dei controlli, un approccio significativamente diverso dalle configurazioni esistenti che si basano su impalcature specifiche per il gioco e informazioni ausiliarie. Manteniamo segreti tre dei giochi per incentivare soluzioni che generalizzino a ambienti non visti. I nostri esperimenti mostrano che i modelli visione-linguaggio all'avanguardia faticano a progredire oltre l'inizio di ciascun gioco. Riteniamo che la latenza di inferenza sia una limitazione significativa per i modelli all'avanguardia in un contesto in tempo reale; pertanto, introduciamo VideoGameBench Lite, una configurazione in cui il gioco si mette in pausa mentre attende la prossima azione del modello linguistico. Il modello con le migliori prestazioni, Gemini 2.5 Pro, completa solo lo 0,48% di VideoGameBench e l'1,6% di VideoGameBench Lite. Speriamo che la formalizzazione delle abilità umane menzionate in questo benchmark stimoli progressi in queste direzioni di ricerca.
English
Vision-language models (VLMs) have achieved strong results on coding and math
benchmarks that are challenging for humans, yet their ability to perform tasks
that come naturally to humans--such as perception, spatial navigation, and
memory management--remains understudied. Real video games are crafted to be
intuitive for humans to learn and master by leveraging innate inductive biases,
making them an ideal testbed for evaluating such capabilities in VLMs. To this
end, we introduce VideoGameBench, a benchmark consisting of 10 popular video
games from the 1990s that VLMs directly interact with in real-time.
VideoGameBench challenges models to complete entire games with access to only
raw visual inputs and a high-level description of objectives and controls, a
significant departure from existing setups that rely on game-specific
scaffolding and auxiliary information. We keep three of the games secret to
encourage solutions that generalize to unseen environments. Our experiments
show that frontier vision-language models struggle to progress beyond the
beginning of each game. We find inference latency to be a major limitation of
frontier models in the real-time setting; therefore, we introduce
VideoGameBench Lite, a setting where the game pauses while waiting for the LM's
next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of
VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization
of the human skills mentioned above into this benchmark motivates progress in
these research directions.