ChatPaper.aiChatPaper

LLaVA-NeXT-Interleave: Aanpak van Multi-beeld, Video en 3D in Grote Multimodale Modellen

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

July 10, 2024
Auteurs: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
cs.AI

Samenvatting

Visuele instructieafstemming heeft aanzienlijke vooruitgang geboekt in het verbeteren van de mogelijkheden van Grote Multimodale Modellen (LMMs). Echter, bestaande open LMMs richten zich grotendeels op taken met één afbeelding, terwijl hun toepassingen in scenario's met meerdere afbeeldingen minder onderzocht zijn. Daarnaast behandelt eerder LMM-onderzoek verschillende scenario's afzonderlijk, waardoor het onmogelijk is om nieuwe opkomende mogelijkheden over scenario's heen te generaliseren. Om dit aan te pakken, introduceren we LLaVA-NeXT-Interleave, dat gelijktijdig scenario's met meerdere afbeeldingen, meerdere frames (video), meerdere perspectieven (3D) en meerdere patches (één afbeelding) in LMMs aanpakt. Om deze mogelijkheden te realiseren, beschouwen we het interleaved dataformaat als een algemene sjabloon en stellen we de M4-Instruct dataset samen met 1.177,6k samples, die 4 primaire domeinen omvatten met 14 taken en 41 datasets. We hebben ook de LLaVA-Interleave Bench samengesteld om de prestaties van LMMs in scenario's met meerdere afbeeldingen uitgebreid te evalueren. Door middel van uitgebreide experimenten behaalt LLaVA-NeXT-Interleave toonaangevende resultaten in benchmarks voor meerdere afbeeldingen, video en 3D, terwijl de prestaties van taken met één afbeelding behouden blijven. Daarnaast vertoont ons model ook verschillende opkomende mogelijkheden, zoals het overdragen van taken tussen verschillende instellingen en modaliteiten. De code is beschikbaar op https://github.com/LLaVA-VL/LLaVA-NeXT.
English
Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT
PDF424November 28, 2024