VideoGameBunny: Verso assistenti visivi per i videogiochi

Abstract

I modelli multimodali di grandi dimensioni (LMM) offrono un potenziale significativo in vari ambiti, dall'assistenza personale nelle attività quotidiane ad applicazioni sofisticate come la diagnostica medica. Tuttavia, le loro capacità presentano limitazioni nel dominio dei videogiochi, come difficoltà nella comprensione delle scene, allucinazioni e descrizioni inaccurate del contenuto dei videogiochi, specialmente nei modelli open-source. Questo articolo descrive lo sviluppo di VideoGameBunny, un modello in stile LLaVA basato su Bunny, specificamente progettato per comprendere immagini provenienti da videogiochi. Rilasciamo checkpoint intermedi, log di addestramento e un ampio dataset composto da 185.259 immagini di videogiochi provenienti da 413 titoli, insieme a 389.565 coppie immagine-istruzione che includono didascalie delle immagini, coppie domanda-risposta e una rappresentazione JSON di 16 elementi di 136.974 immagini. I nostri esperimenti dimostrano che i nostri dati di alta qualità relativi ai videogiochi hanno il potenziale di far sì che un modello relativamente piccolo superi il modello all'avanguardia molto più grande LLaVa-1.6-34b (che ha più di 4 volte il numero di parametri). Il nostro studio apre la strada a future ricerche sulla comprensione dei videogiochi per compiti come il gioco, il commento e il debug. Codice e dati sono disponibili su https://videogamebunny.github.io/

English

Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/

VideoGameBunny: Verso assistenti visivi per i videogiochi

VideoGameBunny: Towards vision assistants for video games

Abstract

Support