LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、3Dデータへの対応
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
July 10, 2024
著者: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
cs.AI
要旨
視覚的指示チューニングは、大規模マルチモーダルモデル(LMM)の能力を向上させる上で大きな進展を遂げてきました。しかし、既存のオープンなLMMは主に単一画像タスクに焦点を当てており、複数画像シナリオへの応用はまだ十分に探求されていません。さらに、従来のLMM研究は異なるシナリオを個別に扱っており、新たに出現する能力をクロスシナリオで一般化することが不可能でした。この問題に対処するため、我々はLLaVA-NeXT-Interleaveを導入し、LMMにおいて複数画像、複数フレーム(ビデオ)、複数視点(3D)、および複数パッチ(単一画像)のシナリオを同時に扱います。これらの能力を実現するために、インターリーブされたデータ形式を一般的なテンプレートと見なし、4つの主要なドメインにまたがる14のタスクと41のデータセットを含む1,177.6kサンプルのM4-Instructデータセットを構築しました。また、LMMの複数画像性能を包括的に評価するためにLLaVA-Interleave Benchをキュレーションしました。広範な実験を通じて、LLaVA-NeXT-Interleaveは複数画像、ビデオ、3Dのベンチマークでリーダー的な結果を達成しつつ、単一画像タスクの性能も維持しています。さらに、我々のモデルは、異なる設定やモダリティ間でタスクを転移するなど、いくつかの新たな能力も示しています。コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで公開されています。
English
Visual instruction tuning has made considerable strides in enhancing the
capabilities of Large Multimodal Models (LMMs). However, existing open LMMs
largely focus on single-image tasks, their applications to multi-image
scenarios remains less explored. Additionally, prior LMM research separately
tackles different scenarios, leaving it impossible to generalize cross
scenarios with new emerging capabilities. To this end, we introduce
LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame
(video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To
enable these capabilities, we regard the interleaved data format as a general
template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4
primary domains with 14 tasks and 41 datasets. We also curate the
LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance
of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading
results in multi-image, video, and 3D benchmarks, while maintaining the
performance of single-image tasks. Besides, our model also exhibits several
emerging capabilities, e.g., transferring tasks across different settings and
modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXTSummary
AI-Generated Summary