ChatPaper.aiChatPaper

LLaVA-NeXT-Interleave : Aborder les images multiples, les vidéos et les données 3D dans les grands modèles multimodaux

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

July 10, 2024
Auteurs: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
cs.AI

Résumé

L'ajustement par instruction visuelle a réalisé des progrès considérables dans l'amélioration des capacités des modèles multimodaux de grande taille (LMMs). Cependant, les LMMs ouverts existants se concentrent largement sur des tâches à image unique, et leurs applications dans des scénarios à images multiples restent peu explorées. De plus, les recherches antérieures sur les LMMs abordent séparément différents scénarios, rendant impossible la généralisation entre scénarios avec de nouvelles capacités émergentes. À cette fin, nous introduisons LLaVA-NeXT-Interleave, qui traite simultanément les scénarios à images multiples, à séquences multiples (vidéo), à vues multiples (3D) et à patchs multiples (image unique) dans les LMMs. Pour permettre ces capacités, nous considérons le format de données entrelacées comme un modèle général et compilons l'ensemble de données M4-Instruct avec 1 177,6k échantillons, couvrant 4 domaines principaux avec 14 tâches et 41 ensembles de données. Nous avons également constitué le banc d'essai LLaVA-Interleave pour évaluer de manière exhaustive les performances des LMMs dans les scénarios à images multiples. Grâce à des expériences approfondies, LLaVA-NeXT-Interleave obtient des résultats de pointe dans les benchmarks à images multiples, vidéo et 3D, tout en maintenant les performances des tâches à image unique. Par ailleurs, notre modèle présente également plusieurs capacités émergentes, par exemple, le transfert de tâches entre différents contextes et modalités. Le code est disponible à l'adresse https://github.com/LLaVA-VL/LLaVA-NeXT.
English
Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT

Summary

AI-Generated Summary

PDF433November 28, 2024