mPLUG-Owl3: Auf dem Weg zum Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen

papers.abstract

Multi-modal Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten bei der Ausführung von Anweisungen für eine Vielzahl von Einzelbild-Aufgaben gezeigt. Trotz dieses Fortschritts bestehen weiterhin bedeutende Herausforderungen beim Modellieren langer Bildsequenzen. In dieser Arbeit stellen wir das vielseitige Multi-modal Large Language Model mPLUG-Owl3 vor, das die Fähigkeit zur Verarbeitung langer Bildsequenzen in Szenarien verbessert, die abgerufenes Bild-Text-Wissen, ineinander verschachtelte Bild-Text-Paare und lange Videos einbeziehen. Speziell schlagen wir neuartige Hyper-Aufmerksamkeitsblöcke vor, um Vision und Sprache effizient in einen gemeinsamen sprachgesteuerten semantischen Raum zu integrieren und somit die Verarbeitung erweiterter Multi-Bild-Szenarien zu erleichtern. Umfangreiche experimentelle Ergebnisse legen nahe, dass mPLUG-Owl3 Spitzenleistungen unter Modellen ähnlicher Größe bei Einzelbild-, Multi-Bild- und Video-Benchmarks erzielt. Darüber hinaus schlagen wir eine anspruchsvolle Bewertung langer visueller Sequenzen namens Distractor Resistance vor, um die Fähigkeit von Modellen zu bewerten, den Fokus trotz Ablenkungen aufrechtzuerhalten. Schließlich zeigt mPLUG-Owl3 mit der vorgeschlagenen Architektur eine herausragende Leistung bei extrem langen visuellen Sequenzeingaben. Wir hoffen, dass mPLUG-Owl3 zur Entwicklung effizienterer und leistungsstärkerer multimodaler großer Sprachmodelle beitragen kann.

English

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.

mPLUG-Owl3: Auf dem Weg zum Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

papers.abstract

Support