MG-LLaVA: Hacia un Ajuste de Instrucción Visual Multi-Granularidad
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Autores: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en diversas tareas de comprensión visual. Sin embargo, la mayoría de estos modelos están limitados a procesar imágenes de baja resolución, lo que restringe su eficacia en tareas de percepción que requieren información visual detallada. En nuestro estudio, presentamos MG-LLaVA, un MLLM innovador que mejora las capacidades de procesamiento visual del modelo mediante la incorporación de un flujo visual de múltiples granularidades, que incluye características de baja resolución, alta resolución y centradas en objetos. Proponemos la integración de un codificador visual adicional de alta resolución para capturar detalles finos, los cuales se fusionan con las características visuales base a través de una red de fusión Conv-Gate. Para refinar aún más las habilidades de reconocimiento de objetos del modelo, incorporamos características a nivel de objeto derivadas de cuadros delimitadores identificados por detectores fuera de línea. Entrenado exclusivamente con datos multimodales de acceso público mediante ajuste por instrucciones, MG-LLaVA demuestra habilidades de percepción excepcionales. Implementamos MG-LLaVA con una amplia variedad de codificadores de lenguaje, que van desde 3.8B hasta 34B, para evaluar el rendimiento del modelo de manera integral. Evaluaciones exhaustivas en múltiples benchmarks demuestran que MG-LLaVA supera a los MLLMs existentes de tamaños de parámetros comparables, mostrando una eficacia notable. El código estará disponible en https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.Summary
AI-Generated Summary