VideoGameQA-Bench: ビデオゲーム品質保証のための視覚言語モデルの評価
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance
May 21, 2025
著者: Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer
cs.AI
要旨
ビデオゲームがエンターテインメント産業で最高の収益を生み出す中、ゲーム開発ワークフローの最適化は、このセクターの持続的な成長にとって不可欠となっています。近年のVision-Language Models(VLM)の進歩は、ゲーム開発のさまざまな側面、特に自動化の選択肢が限られており、業界で最も労力を要するプロセスの一つである品質保証(QA)を自動化し、強化する大きな可能性を提供しています。ビデオゲームQAタスクにおけるVLMの性能を正確に評価し、現実世界のシナリオを扱う際の有効性を判断するためには、標準化されたベンチマークが明らかに必要です。既存のベンチマークは、この領域の特定の要件に対応するには不十分です。このギャップを埋めるため、私たちはVideoGameQA-Benchを導入します。これは、視覚的ユニットテスト、視覚的回帰テスト、針を探すようなタスク、不具合検出、およびさまざまなゲームの画像や動画に対するバグレポート生成など、幅広いゲームQA活動をカバーする包括的なベンチマークです。コードとデータは以下で利用可能です: https://asgaardlab.github.io/videogameqa-bench/
English
With video games now generating the highest revenues in the entertainment
industry, optimizing game development workflows has become essential for the
sector's sustained growth. Recent advancements in Vision-Language Models (VLMs)
offer considerable potential to automate and enhance various aspects of game
development, particularly Quality Assurance (QA), which remains one of the
industry's most labor-intensive processes with limited automation options. To
accurately evaluate the performance of VLMs in video game QA tasks and
determine their effectiveness in handling real-world scenarios, there is a
clear need for standardized benchmarks, as existing benchmarks are insufficient
to address the specific requirements of this domain. To bridge this gap, we
introduce VideoGameQA-Bench, a comprehensive benchmark that covers a wide array
of game QA activities, including visual unit testing, visual regression
testing, needle-in-a-haystack tasks, glitch detection, and bug report
generation for both images and videos of various games. Code and data are
available at: https://asgaardlab.github.io/videogameqa-bench/Summary
AI-Generated Summary