ChatPaper.aiChatPaper

MG-LLaVA: Rumo à Ajuste de Instruções Visuais em Múltiplas Granularidades

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

June 25, 2024
Autores: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI

Resumo

Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram significativamente em diversas tarefas de compreensão visual. No entanto, a maioria desses modelos é limitada a processar imagens de baixa resolução, o que restringe sua eficácia em tarefas de percepção que exigem informações visuais detalhadas. Em nosso estudo, apresentamos o MG-LLaVA, um MLLM inovador que aprimora as capacidades de processamento visual do modelo ao incorporar um fluxo de visão de multi-granularidade, que inclui características de baixa resolução, alta resolução e centradas em objetos. Propomos a integração de um codificador visual adicional de alta resolução para capturar detalhes refinados, que são então fundidos com as características visuais base por meio de uma rede de fusão Conv-Gate. Para aprimorar ainda mais as habilidades de reconhecimento de objetos do modelo, incorporamos características de nível de objeto derivadas de caixas delimitadoras identificadas por detectores offline. Sendo treinado exclusivamente em dados multimodais publicamente disponíveis por meio de ajuste de instruções, o MG-LLaVA demonstra habilidades excepcionais de percepção. Instanciamos o MG-LLaVA com uma ampla variedade de codificadores de linguagem, variando de 3,8B a 34B, para avaliar abrangentemente o desempenho do modelo. Avaliações extensas em diversos benchmarks demonstram que o MG-LLaVA supera os MLLMs existentes de tamanhos de parâmetros comparáveis, evidenciando sua notável eficácia. O código estará disponível em https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.
PDF191November 29, 2024