LLaVA-NeXT-Interleave: Решение проблемы множественных изображений, видео и 3D в больших мультимодальных моделях
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
July 10, 2024
Авторы: Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
cs.AI
Аннотация
Визуальная настройка инструкций сделала значительные успехи в улучшении возможностей Больших Мультимодальных Моделей (BMM). Однако существующие открытые БММ в основном сосредоточены на задачах с одним изображением, их применение к сценариям с несколькими изображениями остается мало исследованным. Кроме того, предшествующие исследования БММ отдельно рассматривают различные сценарии, что делает невозможным обобщение между сценариями с новыми возможностями. Для этого мы представляем LLaVA-NeXT-Interleave, который одновременно решает задачи с несколькими изображениями, несколькими кадрами (видео), несколькими видами (3D) и несколькими патчами (одно изображение) в БММ. Для обеспечения этих возможностей мы рассматриваем формат данных с переплетением как общий шаблон и компилируем набор данных M4-Instruct с 1,177.6 тыс. образцов, охватывающий 4 основных области с 14 задачами и 41 наборами данных. Мы также составляем набор инструментов LLaVA-Interleave Bench для всесторонней оценки многокартинной производительности БММ. В результате обширных экспериментов LLaVA-NeXT-Interleave достигает ведущих результатов в многокартинных, видео- и 3D-бенчмарках, сохраняя производительность задач с одним изображением. Кроме того, наша модель также обладает несколькими новыми возможностями, например, передачей задач между различными настройками и модальностями. Код доступен по адресу https://github.com/LLaVA-VL/LLaVA-NeXT
English
Visual instruction tuning has made considerable strides in enhancing the
capabilities of Large Multimodal Models (LMMs). However, existing open LMMs
largely focus on single-image tasks, their applications to multi-image
scenarios remains less explored. Additionally, prior LMM research separately
tackles different scenarios, leaving it impossible to generalize cross
scenarios with new emerging capabilities. To this end, we introduce
LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame
(video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To
enable these capabilities, we regard the interleaved data format as a general
template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4
primary domains with 14 tasks and 41 datasets. We also curate the
LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance
of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading
results in multi-image, video, and 3D benchmarks, while maintaining the
performance of single-image tasks. Besides, our model also exhibits several
emerging capabilities, e.g., transferring tasks across different settings and
modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXTSummary
AI-Generated Summary