VideoGameBunny: Verso assistenti visivi per i videogiochi
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Autori: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Abstract
I modelli multimodali di grandi dimensioni (LMM) offrono un potenziale significativo in vari ambiti, dall'assistenza personale nelle attività quotidiane ad applicazioni sofisticate come la diagnostica medica. Tuttavia, le loro capacità presentano limitazioni nel dominio dei videogiochi, come difficoltà nella comprensione delle scene, allucinazioni e descrizioni inaccurate del contenuto dei videogiochi, specialmente nei modelli open-source. Questo articolo descrive lo sviluppo di VideoGameBunny, un modello in stile LLaVA basato su Bunny, specificamente progettato per comprendere immagini provenienti da videogiochi. Rilasciamo checkpoint intermedi, log di addestramento e un ampio dataset composto da 185.259 immagini di videogiochi provenienti da 413 titoli, insieme a 389.565 coppie immagine-istruzione che includono didascalie delle immagini, coppie domanda-risposta e una rappresentazione JSON di 16 elementi di 136.974 immagini. I nostri esperimenti dimostrano che i nostri dati di alta qualità relativi ai videogiochi hanno il potenziale di far sì che un modello relativamente piccolo superi il modello all'avanguardia molto più grande LLaVa-1.6-34b (che ha più di 4 volte il numero di parametri). Il nostro studio apre la strada a future ricerche sulla comprensione dei videogiochi per compiti come il gioco, il commento e il debug. Codice e dati sono disponibili su https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/