ChatPaper.aiChatPaper

VideoGameQA-Bench: Evaluación de Modelos de Visión-Lenguaje para el Aseguramiento de la Calidad en Videojuegos

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

May 21, 2025
Autores: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI

Resumen

Con los videojuegos generando ahora los mayores ingresos en la industria del entretenimiento, optimizar los flujos de trabajo de desarrollo de juegos se ha vuelto esencial para el crecimiento sostenido del sector. Los recientes avances en los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) ofrecen un potencial considerable para automatizar y mejorar diversos aspectos del desarrollo de juegos, particularmente en el Aseguramiento de la Calidad (QA), que sigue siendo uno de los procesos más intensivos en mano de obra de la industria, con opciones limitadas de automatización. Para evaluar con precisión el rendimiento de los VLMs en tareas de QA de videojuegos y determinar su efectividad en el manejo de escenarios del mundo real, existe una clara necesidad de puntos de referencia estandarizados, ya que los existentes son insuficientes para abordar los requisitos específicos de este dominio. Para cerrar esta brecha, presentamos VideoGameQA-Bench, un punto de referencia integral que cubre una amplia gama de actividades de QA en juegos, incluyendo pruebas unitarias visuales, pruebas de regresión visual, tareas de búsqueda de agujas en un pajar, detección de fallos y generación de informes de errores tanto para imágenes como para videos de varios juegos. El código y los datos están disponibles en: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/
PDF202May 23, 2025