mPLUG-Owl3: Verso la comprensione di sequenze di immagini lunghe nei modelli linguistici multimodali di grandi dimensioni
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
Autori: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità notevoli nell'eseguire istruzioni per una varietà di attività relative a singole immagini. Nonostante questi progressi, rimangono sfide significative nella modellazione di sequenze di immagini lunghe. In questo lavoro, introduciamo il versatile modello linguistico multimodale di grande dimensione, mPLUG-Owl3, che potenzia la capacità di comprensione di sequenze di immagini lunghe in scenari che incorporano conoscenze recuperate da immagini-testo, contenuti intervallati di immagini-testo e video di lunga durata. Nello specifico, proponiamo nuovi blocchi di iper-attenzione per integrare in modo efficiente la visione e il linguaggio in uno spazio semantico comune guidato dal linguaggio, facilitando così l'elaborazione di scenari multi-immagine estesi. I risultati sperimentali estesi suggeriscono che mPLUG-Owl3 raggiunge prestazioni all'avanguardia tra i modelli di dimensioni simili su benchmark di singola immagine, multi-immagine e video. Inoltre, proponiamo una valutazione impegnativa di sequenze visive lunghe denominata Resistenza ai Distrattori per valutare la capacità dei modelli di mantenere il focus nonostante le distrazioni. Infine, con l'architettura proposta, mPLUG-Owl3 dimostra prestazioni eccezionali su input di sequenze visive ultra-lunghe. Speriamo che mPLUG-Owl3 possa contribuire allo sviluppo di modelli linguistici multimodali di grande dimensione più efficienti e potenti.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.