ChatPaper.aiChatPaper

VideoGameQA-Bench : Évaluation des modèles vision-langage pour l'assurance qualité des jeux vidéo

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

May 21, 2025
Auteurs: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI

Résumé

Alors que les jeux vidéo génèrent désormais les revenus les plus élevés dans l'industrie du divertissement, l'optimisation des flux de travail de développement de jeux est devenue essentielle pour la croissance durable du secteur. Les récentes avancées dans les modèles vision-langage (VLMs) offrent un potentiel considérable pour automatiser et améliorer divers aspects du développement de jeux, en particulier l'assurance qualité (QA), qui reste l'un des processus les plus intensifs en main-d'œuvre de l'industrie avec des options d'automatisation limitées. Pour évaluer avec précision les performances des VLMs dans les tâches de QA de jeux vidéo et déterminer leur efficacité dans la gestion de scénarios réels, il est clairement nécessaire de disposer de benchmarks standardisés, car les benchmarks existants sont insuffisants pour répondre aux exigences spécifiques de ce domaine. Pour combler cette lacune, nous présentons VideoGameQA-Bench, un benchmark complet qui couvre un large éventail d'activités de QA de jeux, y compris les tests unitaires visuels, les tests de régression visuels, les tâches de recherche d'aiguille dans une botte de foin, la détection de bugs et la génération de rapports de bugs pour des images et des vidéos de divers jeux. Le code et les données sont disponibles à l'adresse suivante : https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/

Summary

AI-Generated Summary

PDF172May 23, 2025