VideoGameBunny : Vers des assistants visuels pour les jeux vidéo

papers.abstract

Les modèles multimodaux de grande taille (LMMs) offrent des perspectives prometteuses dans divers domaines, allant de l'assistance personnelle pour les tâches quotidiennes à des applications sophistiquées comme les diagnostics médicaux. Cependant, leurs capacités présentent des limites dans le domaine des jeux vidéo, notamment des difficultés liées à la compréhension des scènes, des hallucinations et des descriptions inexactes du contenu des jeux vidéo, en particulier pour les modèles open-source. Cet article décrit le développement de VideoGameBunny, un modèle de style LLaVA basé sur Bunny, spécialement conçu pour comprendre les images issues de jeux vidéo. Nous publions des points de contrôle intermédiaires, des journaux d'entraînement et un vaste ensemble de données comprenant 185 259 images de jeux vidéo provenant de 413 titres, ainsi que 389 565 paires image-instruction incluant des légendes d'images, des paires question-réponse et une représentation JSON de 16 éléments pour 136 974 images. Nos expériences montrent que nos données de haute qualité liées aux jeux ont le potentiel de permettre à un modèle relativement petit de surpasser le modèle de pointe beaucoup plus grand LLaVa-1.6-34b (qui possède plus de 4 fois le nombre de paramètres). Notre étude ouvre la voie à de futures recherches sur la compréhension des jeux vidéo pour des tâches telles que le jeu, le commentaire et le débogage. Le code et les données sont disponibles à l'adresse https://videogamebunny.github.io/

English

Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/

VideoGameBunny : Vers des assistants visuels pour les jeux vidéo

VideoGameBunny: Towards vision assistants for video games

papers.abstract

Support