VideoGameQA-Bench: Valutazione dei Modelli Visione-Linguaggio per il Controllo Qualità nei Videogiochi
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
May 21, 2025
Autori: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI
Abstract
Con i videogiochi che ora generano i ricavi più alti nell'industria dell'intrattenimento, l'ottimizzazione dei flussi di lavoro nello sviluppo dei giochi è diventata essenziale per la crescita sostenibile del settore. I recenti progressi nei Modelli Visione-Linguaggio (VLMs) offrono un potenziale considerevole per automatizzare e migliorare vari aspetti dello sviluppo dei giochi, in particolare il Controllo Qualità (QA), che rimane uno dei processi più laboriosi del settore con opzioni di automazione limitate. Per valutare accuratamente le prestazioni dei VLMs nei compiti di QA dei videogiochi e determinarne l'efficacia nella gestione di scenari reali, c'è un chiaro bisogno di benchmark standardizzati, poiché quelli esistenti sono insufficienti per affrontare le specifiche esigenze di questo dominio. Per colmare questa lacuna, introduciamo VideoGameQA-Bench, un benchmark completo che copre un'ampia gamma di attività di QA nei giochi, inclusi test unitari visivi, test di regressione visiva, compiti di ricerca dell'ago nel pagliaio, rilevamento di glitch e generazione di report di bug per immagini e video di vari giochi. Il codice e i dati sono disponibili al seguente indirizzo: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment
industry, optimizing game development workflows has become essential for the
sector's sustained growth. Recent advancements in Vision-Language Models (VLMs)
offer considerable potential to automate and enhance various aspects of game
development, particularly Quality Assurance (QA), which remains one of the
industry's most labor-intensive processes with limited automation options. To
accurately evaluate the performance of VLMs in video game QA tasks and
determine their effectiveness in handling real-world scenarios, there is a
clear need for standardized benchmarks, as existing benchmarks are insufficient
to address the specific requirements of this domain. To bridge this gap, we
introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array
of game QA activities, including visual unit testing, visual regression
testing, needle-in-a-haystack tasks, glitch detection, and bug report
generation for both images and videos of various games. Code and data are
available at: https://asgaardlab.github.io/videogameqa-bench/