mPLUG-Owl3: К долгосрочному пониманию последовательности изображений в мультимодальных крупномасштабных языковых моделях.
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
Авторы: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
Аннотация
Многомодельные модели с большим языковым объемом (MLLMs) продемонстрировали выдающиеся возможности в выполнении инструкций для различных задач с одиночным изображением. Несмотря на этот прогресс, остаются значительные проблемы в моделировании длинных последовательностей изображений. В данной работе мы представляем универсальную многомодельную модель с большим языковым объемом, mPLUG-Owl3, которая улучшает способность понимания длинных последовательностей изображений в сценариях, включающих полученные знания об изображениях и тексте, чередующиеся изображения и текст, а также длинные видеоролики. Конкретно, мы предлагаем новые гипервнимательные блоки для эффективного интегрирования зрительной и языковой информации в общее языково-управляемое семантическое пространство, тем самым облегчая обработку расширенных сценариев с несколькими изображениями. Обширные экспериментальные результаты показывают, что mPLUG-Owl3 достигает передовых показателей среди моделей с аналогичным размером на одиночных изображениях, многократных изображениях и видео. Более того, мы предлагаем сложную оценку длинной визуальной последовательности под названием "Сопротивление отвлекателям", чтобы оценить способность моделей сохранять фокус в условиях отвлечений. Наконец, с предложенной архитектурой mPLUG-Owl3 демонстрирует выдающиеся результаты на входах с ультрадлинными визуальными последовательностями. Мы надеемся, что mPLUG-Owl3 сможет способствовать развитию более эффективных и мощных многомодельных моделей с большим языковым объемом.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.Summary
AI-Generated Summary