VideoGameBunny: К созданию визуальных помощников для видеоигр
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Авторы: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Аннотация
Большие мультимодальные модели (LMM) обладают значительным потенциалом в различных областях, начиная от персональной помощи в повседневных задачах до сложных приложений, таких как медицинская диагностика. Однако их возможности имеют ограничения в области видеоигр, такие как сложности с пониманием сцен, галлюцинации и неточные описания контента видеоигр, особенно в моделях с открытым исходным кодом. В данной статье описывается разработка VideoGameBunny, модели в стиле LLaVA на основе Bunny, специально адаптированной для понимания изображений из видеоигр. Мы предоставляем промежуточные контрольные точки, журналы обучения и обширный набор данных, включающий 185 259 изображений из видеоигр из 413 названий, а также 389 565 пар изображение-инструкция, включающих подписи к изображениям, вопросы-ответы и JSON-представление 16 элементов 136 974 изображений. Наши эксперименты показывают, что наши данные высокого качества, связанные с играми, имеют потенциал сделать относительно небольшую модель более эффективной, чем гораздо более крупная передовая модель LLaVa-1.6-34b (которая имеет более чем в 4 раза больше параметров). Наше исследование прокладывает путь для будущих исследований в области понимания видеоигр по задачам, таким как игра, комментирование и отладка. Код и данные доступны по адресу https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/Summary
AI-Generated Summary