mPLUG-Owl3: Auf dem Weg zum Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
Autoren: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
Zusammenfassung
Multi-modal Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten bei der Ausführung von Anweisungen für eine Vielzahl von Einzelbild-Aufgaben gezeigt. Trotz dieses Fortschritts bestehen weiterhin bedeutende Herausforderungen beim Modellieren langer Bildsequenzen. In dieser Arbeit stellen wir das vielseitige Multi-modal Large Language Model mPLUG-Owl3 vor, das die Fähigkeit zur Verarbeitung langer Bildsequenzen in Szenarien verbessert, die abgerufenes Bild-Text-Wissen, ineinander verschachtelte Bild-Text-Paare und lange Videos einbeziehen. Speziell schlagen wir neuartige Hyper-Aufmerksamkeitsblöcke vor, um Vision und Sprache effizient in einen gemeinsamen sprachgesteuerten semantischen Raum zu integrieren und somit die Verarbeitung erweiterter Multi-Bild-Szenarien zu erleichtern. Umfangreiche experimentelle Ergebnisse legen nahe, dass mPLUG-Owl3 Spitzenleistungen unter Modellen ähnlicher Größe bei Einzelbild-, Multi-Bild- und Video-Benchmarks erzielt. Darüber hinaus schlagen wir eine anspruchsvolle Bewertung langer visueller Sequenzen namens Distractor Resistance vor, um die Fähigkeit von Modellen zu bewerten, den Fokus trotz Ablenkungen aufrechtzuerhalten. Schließlich zeigt mPLUG-Owl3 mit der vorgeschlagenen Architektur eine herausragende Leistung bei extrem langen visuellen Sequenzeingaben. Wir hoffen, dass mPLUG-Owl3 zur Entwicklung effizienterer und leistungsstärkerer multimodaler großer Sprachmodelle beitragen kann.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.Summary
AI-Generated Summary