VideoGameQA-Bench: Evaluatie van Vision-Language Modellen voor Kwaliteitsborging in Videogames

Samenvatting

Nu videogames de hoogste inkomsten genereren in de entertainmentindustrie, is het optimaliseren van ontwikkelingsworkflows essentieel geworden voor de duurzame groei van de sector. Recente vooruitgang in Vision-Language Models (VLMs) biedt aanzienlijk potentieel om verschillende aspecten van gameontwikkeling te automatiseren en te verbeteren, met name Quality Assurance (QA), wat een van de meest arbeidsintensieve processen in de industrie blijft met beperkte automatiseringmogelijkheden. Om de prestaties van VLMs in QA-taken voor videogames nauwkeurig te evalueren en hun effectiviteit in het omgaan met realistische scenario's te bepalen, is er een duidelijke behoefte aan gestandaardiseerde benchmarks, aangezien bestaande benchmarks onvoldoende zijn om aan de specifieke vereisten van dit domein te voldoen. Om deze kloof te overbruggen, introduceren we VideoGameQA-Bench, een uitgebreide benchmark die een breed scala aan game-QA-activiteiten omvat, waaronder visuele unittests, visuele regressietests, naald-in-een-hooiberg-taken, glitchdetectie en bugrapportgeneratie voor zowel afbeeldingen als video's van verschillende games. Code en data zijn beschikbaar op: https://asgaardlab.github.io/videogameqa-bench/

English

With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/

VideoGameQA-Bench: Evaluatie van Vision-Language Modellen voor Kwaliteitsborging in Videogames

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

Samenvatting

Support