INF-LLaVA: Percepção de Dupla Perspectiva para Modelo de Linguagem Multimodal de Alta Resolução

Resumo

Com avanços na disponibilidade de dados e recursos computacionais, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades em diversos campos. No entanto, a complexidade quadrática do codificador de visão nos MLLMs limita a resolução das imagens de entrada. A maioria das abordagens atuais mitiga esse problema ao recortar imagens de alta resolução em sub-imagens menores, que são processadas de forma independente pelo codificador de visão. Apesar de capturar detalhes locais suficientes, essas sub-imagens carecem de contexto global e falham em interagir umas com as outras. Para lidar com essa limitação, propomos um novo MLLM, INF-LLaVA, projetado para uma percepção eficaz de imagens de alta resolução. INF-LLaVA incorpora dois componentes inovadores. Primeiramente, introduzimos um Módulo de Recorte de Dupla Perspectiva (DCM), que garante que cada sub-imagem contenha detalhes contínuos de uma perspectiva local e informações abrangentes de uma perspectiva global. Em segundo lugar, introduzimos o Módulo de Aprimoramento de Dupla Perspectiva (DEM) para permitir o aprimoramento mútuo de características globais e locais, permitindo que o INF-LLaVA processe efetivamente imagens de alta resolução capturando simultaneamente informações locais detalhadas e contexto global abrangente. Estudos extensivos de ablação validam a eficácia desses componentes, e experimentos em um conjunto diversificado de benchmarks demonstram que o INF-LLaVA supera os MLLMs existentes. O código e o modelo pré-treinado estão disponíveis em https://github.com/WeihuangLin/INF-LLaVA.

English

With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.

INF-LLaVA: Percepção de Dupla Perspectiva para Modelo de Linguagem Multimodal de Alta Resolução

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Resumo

Support