VideoGameQA-Bench: Bewertung von Vision-Sprache-Modellen für die Qualitätssicherung von Videospielen

papers.abstract

Da Videospiele mittlerweile die höchsten Umsätze in der Unterhaltungsbranche generieren, ist die Optimierung von Spielentwicklungsprozessen entscheidend für das nachhaltige Wachstum des Sektors. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) bieten erhebliches Potenzial, um verschiedene Aspekte der Spielentwicklung zu automatisieren und zu verbessern, insbesondere im Bereich der Qualitätssicherung (QA), die nach wie vor einer der arbeitsintensivsten Prozesse der Branche mit begrenzten Automatisierungsmöglichkeiten ist. Um die Leistung von VLMs in QA-Aufgaben für Videospiele genau zu bewerten und ihre Effektivität bei der Bewältigung realer Szenarien zu bestimmen, besteht ein klarer Bedarf an standardisierten Benchmarks, da bestehende Benchmarks die spezifischen Anforderungen dieses Bereichs nicht ausreichend abdecken. Um diese Lücke zu schließen, stellen wir VideoGameQA-Bench vor, einen umfassenden Benchmark, der eine Vielzahl von QA-Aktivitäten für Spiele abdeckt, darunter visuelle Unit-Tests, visuelle Regressionstests, Nadel-im-Heuhaufen-Aufgaben, Glitch-Erkennung und die Generierung von Fehlerberichten für sowohl Bilder als auch Videos verschiedener Spiele. Code und Daten sind verfügbar unter: https://asgaardlab.github.io/videogameqa-bench/

English

With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/

VideoGameQA-Bench: Bewertung von Vision-Sprache-Modellen für die Qualitätssicherung von Videospielen

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

papers.abstract

Support