VideoGameBunny: Op weg naar visuele assistenten voor videogames
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Auteurs: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Samenvatting
Grote multimodale modellen (LMMs) bieden aanzienlijke mogelijkheden in verschillende domeinen, van persoonlijke assistentie bij dagelijkse taken tot geavanceerde toepassingen zoals medische diagnostiek. Hun mogelijkheden hebben echter beperkingen in het domein van videogames, zoals uitdagingen met scènebegrip, hallucinaties en onnauwkeurige beschrijvingen van videogame-inhoud, vooral in open-source modellen. Dit artikel beschrijft de ontwikkeling van VideoGameBunny, een LLaVA-stijl model gebaseerd op Bunny, specifiek ontworpen voor het begrijpen van afbeeldingen uit videogames. We publiceren tussentijdse checkpoints, trainingslogboeken en een uitgebreide dataset bestaande uit 185.259 videogame-afbeeldingen van 413 titels, samen met 389.565 afbeelding-instructie paren die afbeeldingbeschrijvingen, vraag-antwoord paren en een JSON-representatie van 16 elementen van 136.974 afbeeldingen bevatten. Onze experimenten tonen aan dat onze hoogwaardige game-gerelateerde data het potentieel hebben om een relatief klein model beter te laten presteren dan het veel grotere state-of-the-art model LLaVa-1.6-34b (dat meer dan 4x het aantal parameters heeft). Onze studie baant de weg voor toekomstig onderzoek naar videogame-begrip voor taken zoals spelen, commentaar geven en debuggen. Code en data zijn beschikbaar op https://videogamebunny.github.io/.
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/