mPLUG-Owl3 : Vers la compréhension de longues séquences d'images dans les modèles de langage multi-modaux de grande taille
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
Auteurs: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
Résumé
Les modèles de langage multi-modaux de grande taille (MLLMs) ont démontré des capacités remarquables dans l'exécution d'instructions pour une variété de tâches impliquant une seule image. Malgré ces progrès, des défis importants subsistent dans la modélisation de longues séquences d'images. Dans ce travail, nous présentons le modèle de langage multi-modal polyvalent, mPLUG-Owl3, qui améliore la capacité de compréhension des longues séquences d'images dans des scénarios intégrant des connaissances image-texte récupérées, des séquences intercalées image-texte et des vidéos longues. Plus précisément, nous proposons de nouveaux blocs d'hyper-attention pour intégrer efficacement la vision et le langage dans un espace sémantique commun guidé par le langage, facilitant ainsi le traitement de scénarios multi-images étendus. Les résultats expérimentaux approfondis suggèrent que mPLUG-Owl3 atteint des performances de pointe parmi les modèles de taille similaire sur des benchmarks d'image unique, d'images multiples et de vidéos. De plus, nous proposons une évaluation exigeante de longues séquences visuelles nommée Distractor Resistance pour évaluer la capacité des modèles à maintenir leur concentration malgré les distractions. Enfin, avec l'architecture proposée, mPLUG-Owl3 démontre des performances exceptionnelles sur des entrées de séquences visuelles ultra-longues. Nous espérons que mPLUG-Owl3 pourra contribuer au développement de modèles de langage multi-modaux de grande taille plus efficaces et puissants.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.Summary
AI-Generated Summary