VideoGameBunny: 비디오 게임을 위한 비전 어시스턴트 개발
VideoGameBunny: Towards vision assistants for video games
July 21, 2024
저자: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI
초록
대규모 멀티모달 모델(LMMs)은 일상 업무의 개인적 지원부터 의료 진단과 같은 정교한 애플리케이션에 이르기까지 다양한 분야에서 상당한 가능성을 보여주고 있습니다. 그러나 비디오 게임 도메인에서는 장면 이해, 환각, 그리고 특히 오픈소스 모델에서의 비디오 게임 콘텐츠에 대한 부정확한 설명과 같은 한계가 존재합니다. 본 논문은 비디오 게임 이미지 이해를 위해 특별히 설계된 Bunny 기반의 LLaVA 스타일 모델인 VideoGameBunny의 개발을 설명합니다. 우리는 중간 체크포인트, 학습 로그, 그리고 413개 타이틀에서 추출한 185,259개의 비디오 게임 이미지와 389,565개의 이미지-지시 쌍(이미지 캡션, 질문-답변 쌍, 그리고 136,974개 이미지의 16개 요소를 포함한 JSON 표현)으로 구성된 광범위한 데이터셋을 공개합니다. 우리의 실험 결과, 고품질의 게임 관련 데이터는 상대적으로 작은 모델이 훨씬 더 큰 최첨단 모델인 LLaVa-1.6-34b(파라미터 수가 4배 이상 많음)를 능가할 수 있는 잠재력을 가지고 있음을 보여줍니다. 본 연구는 플레이, 해설, 디버깅과 같은 비디오 게임 이해 작업에 대한 미래 연구의 길을 열어줍니다. 코드와 데이터는 https://videogamebunny.github.io/에서 확인할 수 있습니다.
English
Large multimodal models (LMMs) hold substantial promise across various
domains, from personal assistance in daily tasks to sophisticated applications
like medical diagnostics. However, their capabilities have limitations in the
video game domain, such as challenges with scene understanding, hallucinations,
and inaccurate descriptions of video game content, especially in open-source
models. This paper describes the development of VideoGameBunny, a LLaVA-style
model based on Bunny, specifically tailored for understanding images from video
games. We release intermediate checkpoints, training logs, and an extensive
dataset comprising 185,259 video game images from 413 titles, along with
389,565 image-instruction pairs that include image captions, question-answer
pairs, and a JSON representation of 16 elements of 136,974 images. Our
experiments show that our high quality game-related data has the potential to
make a relatively small model outperform the much larger state-of-the-art model
LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study
paves the way for future research in video game understanding on tasks such as
playing, commentary, and debugging. Code and data are available at
https://videogamebunny.github.io/Summary
AI-Generated Summary