ChatPaper.aiChatPaper

VideoGameQA-Bench: Оценка моделей "визуальный язык" для обеспечения качества видеоигр

VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

May 21, 2025
Авторы: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI

Аннотация

С учетом того, что видеоигры теперь генерируют самые высокие доходы в индустрии развлечений, оптимизация процессов разработки игр стала ключевым фактором для устойчивого роста отрасли. Последние достижения в области моделей "визуальный язык" (Vision-Language Models, VLMs) открывают значительный потенциал для автоматизации и улучшения различных аспектов разработки игр, особенно в области обеспечения качества (Quality Assurance, QA), которая остается одним из наиболее трудоемких процессов в отрасли с ограниченными возможностями автоматизации. Для точной оценки производительности VLMs в задачах QA видеоигр и определения их эффективности в решении реальных сценариев существует явная необходимость в стандартизированных бенчмарках, поскольку существующие бенчмарки недостаточно учитывают специфические требования этой области. Чтобы восполнить этот пробел, мы представляем VideoGameQA-Bench — комплексный бенчмарк, охватывающий широкий спектр задач QA в играх, включая визуальное модульное тестирование, визуальное регрессионное тестирование, задачи поиска "иголки в стоге сена", обнаружение глюков и генерацию отчетов об ошибках для изображений и видео различных игр. Код и данные доступны по адресу: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment industry, optimizing game development workflows has become essential for the sector's sustained growth. Recent advancements in Vision-Language Models (VLMs) offer considerable potential to automate and enhance various aspects of game development, particularly Quality Assurance (QA), which remains one of the industry's most labor-intensive processes with limited automation options. To accurately evaluate the performance of VLMs in video game QA tasks and determine their effectiveness in handling real-world scenarios, there is a clear need for standardized benchmarks, as existing benchmarks are insufficient to address the specific requirements of this domain. To bridge this gap, we introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array of game QA activities, including visual unit testing, visual regression testing, needle-in-a-haystack tasks, glitch detection, and bug report generation for both images and videos of various games. Code and data are available at: https://asgaardlab.github.io/videogameqa-bench/

Summary

AI-Generated Summary

PDF172May 23, 2025