ChatPaper.aiChatPaper

mPLUG-Owl3: Hacia la comprensión de secuencias largas de imágenes en modelos de lenguaje multimodales a gran escala

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

August 9, 2024
Autores: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI

Resumen

Los Modelos de Lenguaje Multimodal Grande (MLLMs) han demostrado capacidades notables para ejecutar instrucciones en una variedad de tareas de imagen única. A pesar de este progreso, persisten desafíos significativos en modelar secuencias de imagen largas. En este trabajo, presentamos el versátil modelo de lenguaje multimodal grande, mPLUG-Owl3, que mejora la capacidad para comprender secuencias de imagen largas en escenarios que incorporan conocimiento imagen-texto recuperado, imagen-texto entrelazado y videos extensos. Específicamente, proponemos bloques de hiperatención novedosos para integrar eficientemente la visión y el lenguaje en un espacio semántico guiado por el lenguaje común, facilitando así el procesamiento de escenarios de múltiples imágenes extendidos. Los extensos resultados experimentales sugieren que mPLUG-Owl3 logra un rendimiento de vanguardia entre los modelos de tamaño similar en tareas de imagen única, múltiples imágenes y videos. Además, proponemos una evaluación desafiante de secuencias visuales largas llamada Resistencia a Distractores para evaluar la capacidad de los modelos de mantener el enfoque en medio de distracciones. Finalmente, con la arquitectura propuesta, mPLUG-Owl3 demuestra un rendimiento sobresaliente en entradas de secuencias visuales ultra largas. Esperamos que mPLUG-Owl3 pueda contribuir al desarrollo de modelos de lenguaje multimodal grande más eficientes y potentes.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.

Summary

AI-Generated Summary

PDF352November 28, 2024