VideoGameBunny : Vers des assistants visuels pour les jeux vidéo
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Auteurs: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) offrent des perspectives prometteuses dans divers domaines, allant de l'assistance personnelle pour les tâches quotidiennes à des applications sophistiquées comme les diagnostics médicaux. Cependant, leurs capacités présentent des limites dans le domaine des jeux vidéo, notamment des difficultés liées à la compréhension des scènes, des hallucinations et des descriptions inexactes du contenu des jeux vidéo, en particulier pour les modèles open-source. Cet article décrit le développement de VideoGameBunny, un modèle de style LLaVA basé sur Bunny, spécialement conçu pour comprendre les images issues de jeux vidéo. Nous publions des points de contrôle intermédiaires, des journaux d'entraînement et un vaste ensemble de données comprenant 185 259 images de jeux vidéo provenant de 413 titres, ainsi que 389 565 paires image-instruction incluant des légendes d'images, des paires question-réponse et une représentation JSON de 16 éléments pour 136 974 images. Nos expériences montrent que nos données de haute qualité liées aux jeux ont le potentiel de permettre à un modèle relativement petit de surpasser le modèle de pointe beaucoup plus grand LLaVa-1.6-34b (qui possède plus de 4 fois le nombre de paramètres). Notre étude ouvre la voie à de futures recherches sur la compréhension des jeux vidéo pour des tâches telles que le jeu, le commentaire et le débogage. Le code et les données sont disponibles à l'adresse https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/Summary
AI-Generated Summary