VideoGameQA-Bench: Bewertung von Vision-Sprache-Modellen für die Qualitätssicherung von Videospielen
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
May 21, 2025
Autoren: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI
Zusammenfassung
Da Videospiele mittlerweile die höchsten Umsätze in der Unterhaltungsbranche generieren, ist die Optimierung von Spielentwicklungsprozessen entscheidend für das nachhaltige Wachstum des Sektors. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) bieten erhebliches Potenzial, um verschiedene Aspekte der Spielentwicklung zu automatisieren und zu verbessern, insbesondere im Bereich der Qualitätssicherung (QA), die nach wie vor einer der arbeitsintensivsten Prozesse der Branche mit begrenzten Automatisierungsmöglichkeiten ist. Um die Leistung von VLMs in QA-Aufgaben für Videospiele genau zu bewerten und ihre Effektivität bei der Bewältigung realer Szenarien zu bestimmen, besteht ein klarer Bedarf an standardisierten Benchmarks, da bestehende Benchmarks die spezifischen Anforderungen dieses Bereichs nicht ausreichend abdecken. Um diese Lücke zu schließen, stellen wir VideoGameQA-Bench vor, einen umfassenden Benchmark, der eine Vielzahl von QA-Aktivitäten für Spiele abdeckt, darunter visuelle Unit-Tests, visuelle Regressionstests, Nadel-im-Heuhaufen-Aufgaben, Glitch-Erkennung und die Generierung von Fehlerberichten für sowohl Bilder als auch Videos verschiedener Spiele. Code und Daten sind verfügbar unter: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment
industry, optimizing game development workflows has become essential for the
sector's sustained growth. Recent advancements in Vision-Language Models (VLMs)
offer considerable potential to automate and enhance various aspects of game
development, particularly Quality Assurance (QA), which remains one of the
industry's most labor-intensive processes with limited automation options. To
accurately evaluate the performance of VLMs in video game QA tasks and
determine their effectiveness in handling real-world scenarios, there is a
clear need for standardized benchmarks, as existing benchmarks are insufficient
to address the specific requirements of this domain. To bridge this gap, we
introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array
of game QA activities, including visual unit testing, visual regression
testing, needle-in-a-haystack tasks, glitch detection, and bug report
generation for both images and videos of various games. Code and data are
available at: https://asgaardlab.github.io/videogameqa-bench/Summary
AI-Generated Summary