ChatPaper.aiChatPaper

VideoGameBench: ¿Pueden los modelos de visión y lenguaje completar videojuegos populares?

VideoGameBench: Can Vision-Language Models complete popular video games?

May 23, 2025
Autores: Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press
cs.AI

Resumen

Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado resultados sólidos en benchmarks de codificación y matemáticas que son desafiantes para los humanos, pero su capacidad para realizar tareas que nos resultan naturales—como la percepción, la navegación espacial y la gestión de la memoria—sigue siendo poco estudiada. Los videojuegos reales están diseñados para ser intuitivos y fáciles de aprender y dominar para los humanos, aprovechando sesgos inductivos innatos, lo que los convierte en un banco de pruebas ideal para evaluar dichas capacidades en los VLMs. Con este fin, presentamos VideoGameBench, un benchmark compuesto por 10 videojuegos populares de la década de 1990 con los que los VLMs interactúan directamente en tiempo real. VideoGameBench desafía a los modelos a completar juegos enteros con acceso únicamente a entradas visuales sin procesar y una descripción de alto nivel de los objetivos y controles, un enfoque significativamente diferente a las configuraciones existentes que dependen de andamiajes específicos del juego e información auxiliar. Mantenemos tres de los juegos en secreto para fomentar soluciones que generalicen a entornos no vistos. Nuestros experimentos muestran que los modelos de vanguardia en visión y lenguaje tienen dificultades para avanzar más allá del comienzo de cada juego. Identificamos que la latencia de inferencia es una limitación importante de los modelos de vanguardia en el entorno de tiempo real; por lo tanto, introducimos VideoGameBench Lite, una configuración en la que el juego se pausa mientras espera la siguiente acción del modelo de lenguaje. El modelo con mejor rendimiento, Gemini 2.5 Pro, completa solo el 0.48% de VideoGameBench y el 1.6% de VideoGameBench Lite. Esperamos que la formalización de las habilidades humanas mencionadas en este benchmark impulse el progreso en estas direcciones de investigación.
English
Vision-language models (VLMs) have achieved strong results on coding and math benchmarks that are challenging for humans, yet their ability to perform tasks that come naturally to humans--such as perception, spatial navigation, and memory management--remains understudied. Real video games are crafted to be intuitive for humans to learn and master by leveraging innate inductive biases, making them an ideal testbed for evaluating such capabilities in VLMs. To this end, we introduce VideoGameBench, a benchmark consisting of 10 popular video games from the 1990s that VLMs directly interact with in real-time. VideoGameBench challenges models to complete entire games with access to only raw visual inputs and a high-level description of objectives and controls, a significant departure from existing setups that rely on game-specific scaffolding and auxiliary information. We keep three of the games secret to encourage solutions that generalize to unseen environments. Our experiments show that frontier vision-language models struggle to progress beyond the beginning of each game. We find inference latency to be a major limitation of frontier models in the real-time setting; therefore, we introduce VideoGameBench Lite, a setting where the game pauses while waiting for the LM's next action. The best performing model, Gemini 2.5 Pro, completes only 0.48% of VideoGameBench and 1.6% of VideoGameBench Lite. We hope that the formalization of the human skills mentioned above into this benchmark motivates progress in these research directions.

Summary

AI-Generated Summary

PDF63May 28, 2025