VideoGameQA-Bench: Оценка моделей "визуальный язык" для обеспечения качества видеоигр
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
May 21, 2025
Авторы: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI
Аннотация
С учетом того, что видеоигры теперь генерируют самые высокие доходы в индустрии развлечений, оптимизация процессов разработки игр стала ключевым фактором для устойчивого роста отрасли. Последние достижения в области моделей "визуальный язык" (Vision-Language Models, VLMs) открывают значительный потенциал для автоматизации и улучшения различных аспектов разработки игр, особенно в области обеспечения качества (Quality Assurance, QA), которая остается одним из наиболее трудоемких процессов в отрасли с ограниченными возможностями автоматизации. Для точной оценки производительности VLMs в задачах QA видеоигр и определения их эффективности в решении реальных сценариев существует явная необходимость в стандартизированных бенчмарках, поскольку существующие бенчмарки недостаточно учитывают специфические требования этой области. Чтобы восполнить этот пробел, мы представляем VideoGameQA-Bench — комплексный бенчмарк, охватывающий широкий спектр задач QA в играх, включая визуальное модульное тестирование, визуальное регрессионное тестирование, задачи поиска "иголки в стоге сена", обнаружение глюков и генерацию отчетов об ошибках для изображений и видео различных игр. Код и данные доступны по адресу: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment
industry, optimizing game development workflows has become essential for the
sector's sustained growth. Recent advancements in Vision-Language Models (VLMs)
offer considerable potential to automate and enhance various aspects of game
development, particularly Quality Assurance (QA), which remains one of the
industry's most labor-intensive processes with limited automation options. To
accurately evaluate the performance of VLMs in video game QA tasks and
determine their effectiveness in handling real-world scenarios, there is a
clear need for standardized benchmarks, as existing benchmarks are insufficient
to address the specific requirements of this domain. To bridge this gap, we
introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array
of game QA activities, including visual unit testing, visual regression
testing, needle-in-a-haystack tasks, glitch detection, and bug report
generation for both images and videos of various games. Code and data are
available at: https://asgaardlab.github.io/videogameqa-bench/Summary
AI-Generated Summary