mPLUG-Owl3: Hacia la comprensión de secuencias largas de imágenes en modelos de lenguaje multimodales a gran escala
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
Autores: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
Resumen
Los Modelos de Lenguaje Multimodal Grande (MLLMs) han demostrado capacidades notables para ejecutar instrucciones en una variedad de tareas de imagen única. A pesar de este progreso, persisten desafíos significativos en modelar secuencias de imagen largas. En este trabajo, presentamos el versátil modelo de lenguaje multimodal grande, mPLUG-Owl3, que mejora la capacidad para comprender secuencias de imagen largas en escenarios que incorporan conocimiento imagen-texto recuperado, imagen-texto entrelazado y videos extensos. Específicamente, proponemos bloques de hiperatención novedosos para integrar eficientemente la visión y el lenguaje en un espacio semántico guiado por el lenguaje común, facilitando así el procesamiento de escenarios de múltiples imágenes extendidos. Los extensos resultados experimentales sugieren que mPLUG-Owl3 logra un rendimiento de vanguardia entre los modelos de tamaño similar en tareas de imagen única, múltiples imágenes y videos. Además, proponemos una evaluación desafiante de secuencias visuales largas llamada Resistencia a Distractores para evaluar la capacidad de los modelos de mantener el enfoque en medio de distracciones. Finalmente, con la arquitectura propuesta, mPLUG-Owl3 demuestra un rendimiento sobresaliente en entradas de secuencias visuales ultra largas. Esperamos que mPLUG-Owl3 pueda contribuir al desarrollo de modelos de lenguaje multimodal grande más eficientes y potentes.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.Summary
AI-Generated Summary