VideoGameBunny: Hacia asistentes visuales para videojuegos
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
Autores: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) tienen un gran potencial en diversos ámbitos, desde la asistencia personal en tareas diarias hasta aplicaciones sofisticadas como el diagnóstico médico. Sin embargo, sus capacidades presentan limitaciones en el ámbito de los videojuegos, como desafíos con la comprensión de escenas, alucinaciones y descripciones inexactas del contenido de los videojuegos, especialmente en modelos de código abierto. Este artículo describe el desarrollo de VideoGameBunny, un modelo de estilo LLaVA basado en Bunny, específicamente diseñado para comprender imágenes de videojuegos. Publicamos puntos de control intermedios, registros de entrenamiento y un extenso conjunto de datos que incluye 185,259 imágenes de videojuegos de 413 títulos, junto con 389,565 pares imagen-instrucción que incluyen leyendas de imágenes, pares de preguntas y respuestas, y una representación JSON de 16 elementos de 136,974 imágenes. Nuestros experimentos muestran que nuestros datos de alta calidad relacionados con videojuegos tienen el potencial de hacer que un modelo relativamente pequeño supere al modelo de última generación mucho más grande LLaVa-1.6-34b (que tiene más de 4 veces el número de parámetros). Nuestro estudio allana el camino para futuras investigaciones en la comprensión de videojuegos en tareas como jugar, comentar y depurar. El código y los datos están disponibles en https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/Summary
AI-Generated Summary