ChatPaper.aiChatPaper

VideoGameBunny: 비디오 게임을 위한 비전 어시스턴트 개발

VideoGameBunny: Towards vision assistants for video games

July 21, 2024
저자: Mohammad Reza Taesiri, Cor-Paul Bezemer
cs.AI

초록

대규모 멀티모달 모델(LMMs)은 일상 업무의 개인적 지원부터 의료 진단과 같은 정교한 애플리케이션에 이르기까지 다양한 분야에서 상당한 가능성을 보여주고 있습니다. 그러나 비디오 게임 도메인에서는 장면 이해, 환각, 그리고 특히 오픈소스 모델에서의 비디오 게임 콘텐츠에 대한 부정확한 설명과 같은 한계가 존재합니다. 본 논문은 비디오 게임 이미지 이해를 위해 특별히 설계된 Bunny 기반의 LLaVA 스타일 모델인 VideoGameBunny의 개발을 설명합니다. 우리는 중간 체크포인트, 학습 로그, 그리고 413개 타이틀에서 추출한 185,259개의 비디오 게임 이미지와 389,565개의 이미지-지시 쌍(이미지 캡션, 질문-답변 쌍, 그리고 136,974개 이미지의 16개 요소를 포함한 JSON 표현)으로 구성된 광범위한 데이터셋을 공개합니다. 우리의 실험 결과, 고품질의 게임 관련 데이터는 상대적으로 작은 모델이 훨씬 더 큰 최첨단 모델인 LLaVa-1.6-34b(파라미터 수가 4배 이상 많음)를 능가할 수 있는 잠재력을 가지고 있음을 보여줍니다. 본 연구는 플레이, 해설, 디버깅과 같은 비디오 게임 이해 작업에 대한 미래 연구의 길을 열어줍니다. 코드와 데이터는 https://videogamebunny.github.io/에서 확인할 수 있습니다.
English
Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/

Summary

AI-Generated Summary

PDF226November 28, 2024