LLaVA-NeXT-Interleave: 대규모 멀티모달 모델에서 다중 이미지, 비디오 및 3D 처리에 대한 접근
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
July 10, 2024
저자: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
cs.AI
초록
시각적 명령어 튜닝은 대규모 멀티모달 모델(LMM)의 능력을 향상시키는 데 상당한 진전을 이루었습니다. 그러나 기존의 오픈 소스 LMM들은 주로 단일 이미지 작업에 초점을 맞추고 있으며, 다중 이미지 시나리오에 대한 적용은 아직 덜 탐구된 상태입니다. 또한, 이전의 LMM 연구는 다양한 시나리오를 개별적으로 다루어 새로운 능력을 교차 시나리오로 일반화하는 것이 불가능했습니다. 이를 위해 우리는 LLaVA-NeXT-Interleave를 소개하며, 이 모델은 LMM에서 다중 이미지, 다중 프레임(비디오), 다중 뷰(3D), 그리고 다중 패치(단일 이미지) 시나리오를 동시에 다룹니다. 이러한 능력을 가능하게 하기 위해, 우리는 인터리브 데이터 형식을 일반적인 템플릿으로 간주하고 4개의 주요 도메인에 걸쳐 14개의 작업과 41개의 데이터셋으로 구성된 M4-Instruct 데이터셋을 1,177.6k 샘플로 컴파일했습니다. 또한, LMM의 다중 이미지 성능을 종합적으로 평가하기 위해 LLaVA-Interleave Bench를 구축했습니다. 광범위한 실험을 통해 LLaVA-NeXT-Interleave는 다중 이미지, 비디오, 3D 벤치마크에서 선도적인 결과를 달성하면서도 단일 이미지 작업의 성능을 유지했습니다. 또한, 우리의 모델은 다양한 설정과 모달리티 간의 작업 전환과 같은 여러 새로운 능력을 보여줍니다. 코드는 https://github.com/LLaVA-VL/LLaVA-NeXT에서 확인할 수 있습니다.
English
Visual instruction tuning has made considerable strides in enhancing the
capabilities of Large Multimodal Models (LMMs). However, existing open LMMs
largely focus on single-image tasks, their applications to multi-image
scenarios remains less explored. Additionally, prior LMM research separately
tackles different scenarios, leaving it impossible to generalize cross
scenarios with new emerging capabilities. To this end, we introduce
LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame
(video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To
enable these capabilities, we regard the interleaved data format as a general
template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4
primary domains with 14 tasks and 41 datasets. We also curate the
LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance
of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading
results in multi-image, video, and 3D benchmarks, while maintaining the
performance of single-image tasks. Besides, our model also exhibits several
emerging capabilities, e.g., transferring tasks across different settings and
modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXTSummary
AI-Generated Summary