INF-LLaVA: Percepção de Dupla Perspectiva para Modelo de Linguagem Multimodal de Alta Resolução
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
July 23, 2024
Autores: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI
Resumo
Com avanços na disponibilidade de dados e recursos computacionais, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades em diversos campos. No entanto, a complexidade quadrática do codificador de visão nos MLLMs limita a resolução das imagens de entrada. A maioria das abordagens atuais mitiga esse problema ao recortar imagens de alta resolução em sub-imagens menores, que são processadas de forma independente pelo codificador de visão. Apesar de capturar detalhes locais suficientes, essas sub-imagens carecem de contexto global e falham em interagir umas com as outras. Para lidar com essa limitação, propomos um novo MLLM, INF-LLaVA, projetado para uma percepção eficaz de imagens de alta resolução. INF-LLaVA incorpora dois componentes inovadores. Primeiramente, introduzimos um Módulo de Recorte de Dupla Perspectiva (DCM), que garante que cada sub-imagem contenha detalhes contínuos de uma perspectiva local e informações abrangentes de uma perspectiva global. Em segundo lugar, introduzimos o Módulo de Aprimoramento de Dupla Perspectiva (DEM) para permitir o aprimoramento mútuo de características globais e locais, permitindo que o INF-LLaVA processe efetivamente imagens de alta resolução capturando simultaneamente informações locais detalhadas e contexto global abrangente. Estudos extensivos de ablação validam a eficácia desses componentes, e experimentos em um conjunto diversificado de benchmarks demonstram que o INF-LLaVA supera os MLLMs existentes. O código e o modelo pré-treinado estão disponíveis em https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal
Large Language Models (MLLMs) have showcased capabilities across various
fields. However, the quadratic complexity of the vision encoder in MLLMs
constrains the resolution of input images. Most current approaches mitigate
this issue by cropping high-resolution images into smaller sub-images, which
are then processed independently by the vision encoder. Despite capturing
sufficient local details, these sub-images lack global context and fail to
interact with one another. To address this limitation, we propose a novel MLLM,
INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA
incorporates two innovative components. First, we introduce a Dual-perspective
Cropping Module (DCM), which ensures that each sub-image contains continuous
details from a local perspective and comprehensive information from a global
perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to
enable the mutual enhancement of global and local features, allowing INF-LLaVA
to effectively process high-resolution images by simultaneously capturing
detailed local information and comprehensive global context. Extensive ablation
studies validate the effectiveness of these components, and experiments on a
diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing
MLLMs. Code and pretrained model are available at
https://github.com/WeihuangLin/INF-LLaVA.