MG-LLaVA: Hacia un Ajuste de Instrucción Visual Multi-Granularidad

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en diversas tareas de comprensión visual. Sin embargo, la mayoría de estos modelos están limitados a procesar imágenes de baja resolución, lo que restringe su eficacia en tareas de percepción que requieren información visual detallada. En nuestro estudio, presentamos MG-LLaVA, un MLLM innovador que mejora las capacidades de procesamiento visual del modelo mediante la incorporación de un flujo visual de múltiples granularidades, que incluye características de baja resolución, alta resolución y centradas en objetos. Proponemos la integración de un codificador visual adicional de alta resolución para capturar detalles finos, los cuales se fusionan con las características visuales base a través de una red de fusión Conv-Gate. Para refinar aún más las habilidades de reconocimiento de objetos del modelo, incorporamos características a nivel de objeto derivadas de cuadros delimitadores identificados por detectores fuera de línea. Entrenado exclusivamente con datos multimodales de acceso público mediante ajuste por instrucciones, MG-LLaVA demuestra habilidades de percepción excepcionales. Implementamos MG-LLaVA con una amplia variedad de codificadores de lenguaje, que van desde 3.8B hasta 34B, para evaluar el rendimiento del modelo de manera integral. Evaluaciones exhaustivas en múltiples benchmarks demuestran que MG-LLaVA supera a los MLLMs existentes de tamaños de parámetros comparables, mostrando una eficacia notable. El código estará disponible en https://github.com/PhoenixZ810/MG-LLaVA.

English

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

MG-LLaVA: Hacia un Ajuste de Instrucción Visual Multi-Granularidad

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Resumen

Support