ChatPaper.aiChatPaper

mPLUG-Owl3: Naar langdurig begrip van beeldsequenties in multi-modale grote taalmodellen

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

August 9, 2024
Auteurs: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI

Samenvatting

Multi-modale Large Language Models (MLLMs) hebben opmerkelijke capaciteiten getoond bij het uitvoeren van instructies voor een verscheidenheid aan taken met één afbeelding. Ondanks deze vooruitgang blijven er aanzienlijke uitdagingen bestaan bij het modelleren van lange beeldsequenties. In dit werk introduceren we het veelzijdige multi-modale large language model, mPLUG-Owl3, dat het vermogen verbetert voor het begrijpen van lange beeldsequenties in scenario's die opgehaalde beeld-tekstkennis, afgewisselde beeld-tekst en lange video's omvatten. Specifiek stellen we nieuwe hyper attention blocks voor om visie en taal efficiënt te integreren in een gemeenschappelijke taalgeleide semantische ruimte, waardoor de verwerking van uitgebreide multi-beeldscenario's wordt vergemakkelijkt. Uitgebreide experimentele resultaten suggereren dat mPLUG-Owl3 state-of-the-art prestaties behaalt onder modellen van vergelijkbare grootte op benchmarks voor één afbeelding, meerdere afbeeldingen en video's. Bovendien stellen we een uitdagende evaluatie van lange visuele sequenties voor, genaamd Distractor Resistance, om het vermogen van modellen te beoordelen om focus te behouden te midden van afleidingen. Ten slotte toont mPLUG-Owl3 met de voorgestelde architectuur uitstekende prestaties op ultra-lange visuele sequentie-invoeren. We hopen dat mPLUG-Owl3 kan bijdragen aan de ontwikkeling van efficiëntere en krachtigere multimodale large language models.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.
PDF332February 7, 2026