ChatPaper.aiChatPaper

VideoGameQA-Bench: Avaliando Modelos de Visão e Linguagem para Garantia de Qualidade em Jogos Eletrônicos

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

May 21, 2025
Autores: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI

Resumo

Com os videogames agora gerando as maiores receitas na indústria do entretenimento, a otimização dos fluxos de trabalho de desenvolvimento de jogos tornou-se essencial para o crescimento sustentável do setor. Avanços recentes em Modelos de Visão e Linguagem (VLMs) oferecem um potencial considerável para automatizar e aprimorar vários aspectos do desenvolvimento de jogos, particularmente a Garantia de Qualidade (QA), que continua sendo um dos processos mais intensivos em mão de obra da indústria, com opções limitadas de automação. Para avaliar com precisão o desempenho dos VLMs em tarefas de QA de videogames e determinar sua eficácia no tratamento de cenários do mundo real, há uma clara necessidade de benchmarks padronizados, uma vez que os benchmarks existentes são insuficientes para atender às demandas específicas desse domínio. Para preencher essa lacuna, apresentamos o VideoGameQA-Bench, um benchmark abrangente que cobre uma ampla gama de atividades de QA em jogos, incluindo testes de unidade visual, testes de regressão visual, tarefas de "agulha no palheiro", detecção de falhas e geração de relatórios de bugs para imagens e vídeos de diversos jogos. O código e os dados estão disponíveis em: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/
PDF202December 14, 2025