VideoGameQA-Bench: Evaluatie van Vision-Language Modellen voor Kwaliteitsborging in Videogames
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
May 21, 2025
Auteurs: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI
Samenvatting
Nu videogames de hoogste inkomsten genereren in de entertainmentindustrie, is het optimaliseren van ontwikkelingsworkflows essentieel geworden voor de duurzame groei van de sector. Recente vooruitgang in Vision-Language Models (VLMs) biedt aanzienlijk potentieel om verschillende aspecten van gameontwikkeling te automatiseren en te verbeteren, met name Quality Assurance (QA), wat een van de meest arbeidsintensieve processen in de industrie blijft met beperkte automatiseringmogelijkheden. Om de prestaties van VLMs in QA-taken voor videogames nauwkeurig te evalueren en hun effectiviteit in het omgaan met realistische scenario's te bepalen, is er een duidelijke behoefte aan gestandaardiseerde benchmarks, aangezien bestaande benchmarks onvoldoende zijn om aan de specifieke vereisten van dit domein te voldoen. Om deze kloof te overbruggen, introduceren we VideoGameQA-Bench, een uitgebreide benchmark die een breed scala aan game-QA-activiteiten omvat, waaronder visuele unittests, visuele regressietests, naald-in-een-hooiberg-taken, glitchdetectie en bugrapportgeneratie voor zowel afbeeldingen als video's van verschillende games. Code en data zijn beschikbaar op: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment
industry, optimizing game development workflows has become essential for the
sector's sustained growth. Recent advancements in Vision-Language Models (VLMs)
offer considerable potential to automate and enhance various aspects of game
development, particularly Quality Assurance (QA), which remains one of the
industry's most labor-intensive processes with limited automation options. To
accurately evaluate the performance of VLMs in video game QA tasks and
determine their effectiveness in handling real-world scenarios, there is a
clear need for standardized benchmarks, as existing benchmarks are insufficient
to address the specific requirements of this domain. To bridge this gap, we
introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array
of game QA activities, including visual unit testing, visual regression
testing, needle-in-a-haystack tasks, glitch detection, and bug report
generation for both images and videos of various games. Code and data are
available at: https://asgaardlab.github.io/videogameqa-bench/