ChatPaper.aiChatPaper

mPLUG-Owl3: Rumo à Compreensão de Sequências Longas de Imagens em Modelos de Linguagem Multimodais de Grande Escala

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

August 9, 2024
Autores: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis na execução de instruções para uma variedade de tarefas de imagem única. Apesar desse progresso, desafios significativos permanecem na modelagem de sequências longas de imagens. Neste trabalho, introduzimos o versátil modelo de linguagem multimodal de grande escala, mPLUG-Owl3, que aprimora a capacidade de compreensão de sequências longas de imagens em cenários que incorporam conhecimento de texto e imagem recuperados, texto e imagem entrelaçados, e vídeos extensos. Especificamente, propomos blocos de hiperatenção inovadores para integrar eficientemente visão e linguagem em um espaço semântico comum guiado por linguagem, facilitando assim o processamento de cenários multi-imagem estendidos. Resultados experimentais extensivos sugerem que o mPLUG-Owl3 alcança desempenho de ponta entre modelos de tamanho similar em benchmarks de imagem única, multi-imagem e vídeo. Além disso, propomos uma avaliação desafiadora de sequência visual longa chamada Resistência a Distratores para avaliar a capacidade dos modelos de manter o foco em meio a distrações. Por fim, com a arquitetura proposta, o mPLUG-Owl3 demonstra um desempenho excepcional em entradas de sequência visual ultra-longas. Esperamos que o mPLUG-Owl3 possa contribuir para o desenvolvimento de modelos de linguagem multimodais de grande escala mais eficientes e poderosos.
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.

Summary

AI-Generated Summary

PDF352November 28, 2024