ChatPaper.aiChatPaper

VideoGameBunny: Hacia asistentes visuales para videojuegos

VideoGameBunny: Towards vision assistants for video games

July 21, 2024
Autores: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI

Resumen

Los modelos multimodales grandes (LMMs) tienen un gran potencial en diversos ámbitos, desde la asistencia personal en tareas diarias hasta aplicaciones sofisticadas como el diagnóstico médico. Sin embargo, sus capacidades presentan limitaciones en el ámbito de los videojuegos, como desafíos con la comprensión de escenas, alucinaciones y descripciones inexactas del contenido de los videojuegos, especialmente en modelos de código abierto. Este artículo describe el desarrollo de VideoGameBunny, un modelo de estilo LLaVA basado en Bunny, específicamente diseñado para comprender imágenes de videojuegos. Publicamos puntos de control intermedios, registros de entrenamiento y un extenso conjunto de datos que incluye 185,259 imágenes de videojuegos de 413 títulos, junto con 389,565 pares imagen-instrucción que incluyen leyendas de imágenes, pares de preguntas y respuestas, y una representación JSON de 16 elementos de 136,974 imágenes. Nuestros experimentos muestran que nuestros datos de alta calidad relacionados con videojuegos tienen el potencial de hacer que un modelo relativamente pequeño supere al modelo de última generación mucho más grande LLaVa-1.6-34b (que tiene más de 4 veces el número de parámetros). Nuestro estudio allana el camino para futuras investigaciones en la comprensión de videojuegos en tareas como jugar, comentar y depurar. El código y los datos están disponibles en https://videogamebunny.github.io/
English
Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/

Summary

AI-Generated Summary

PDF226November 28, 2024