MG-LLaVA: Rumo à Ajuste de Instruções Visuais em Múltiplas Granularidades
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Autores: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Resumo
Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram significativamente em diversas tarefas de compreensão visual. No entanto, a maioria desses modelos é limitada a processar imagens de baixa resolução, o que restringe sua eficácia em tarefas de percepção que exigem informações visuais detalhadas. Em nosso estudo, apresentamos o MG-LLaVA, um MLLM inovador que aprimora as capacidades de processamento visual do modelo ao incorporar um fluxo de visão de multi-granularidade, que inclui características de baixa resolução, alta resolução e centradas em objetos. Propomos a integração de um codificador visual adicional de alta resolução para capturar detalhes refinados, que são então fundidos com as características visuais base por meio de uma rede de fusão Conv-Gate. Para aprimorar ainda mais as habilidades de reconhecimento de objetos do modelo, incorporamos características de nível de objeto derivadas de caixas delimitadoras identificadas por detectores offline. Sendo treinado exclusivamente em dados multimodais publicamente disponíveis por meio de ajuste de instruções, o MG-LLaVA demonstra habilidades excepcionais de percepção. Instanciamos o MG-LLaVA com uma ampla variedade de codificadores de linguagem, variando de 3,8B a 34B, para avaliar abrangentemente o desempenho do modelo. Avaliações extensas em diversos benchmarks demonstram que o MG-LLaVA supera os MLLMs existentes de tamanhos de parâmetros comparáveis, evidenciando sua notável eficácia. O código estará disponível em https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.