VideoGameBunny: Rumo a assistentes de visão para jogos de vídeo.
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Autores: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Resumo
Grandes modelos multimodais (LMMs) possuem um grande potencial em diversos domínios, desde assistência pessoal em tarefas diárias até aplicações sofisticadas como diagnósticos médicos. No entanto, suas capacidades têm limitações no domínio de jogos de vídeo, como desafios com compreensão de cena, alucinações e descrições imprecisas de conteúdo de jogos de vídeo, especialmente em modelos de código aberto. Este artigo descreve o desenvolvimento do VideoGameBunny, um modelo do estilo LLaVA baseado em Bunny, especificamente adaptado para compreender imagens de jogos de vídeo. Disponibilizamos checkpoints intermediários, registros de treinamento e um extenso conjunto de dados composto por 185.259 imagens de jogos de vídeo de 413 títulos, juntamente com 389.565 pares de imagem-instrução que incluem legendas de imagem, pares de pergunta-resposta e uma representação JSON de 16 elementos de 136.974 imagens. Nossos experimentos mostram que nossos dados de alta qualidade relacionados a jogos têm o potencial de fazer um modelo relativamente pequeno superar o modelo de última geração muito maior LLaVa-1.6-34b (que possui mais de 4 vezes o número de parâmetros). Nosso estudo abre caminho para pesquisas futuras na compreensão de jogos de vídeo em tarefas como jogar, comentar e depurar. O código e os dados estão disponíveis em https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/