MG-LLaVA : Vers un réglage d'instructions visuelles multi-granularité

papers.abstract

Les modèles de langage multi-modaux de grande taille (MLLMs) ont réalisé des progrès significatifs dans diverses tâches de compréhension visuelle. Cependant, la majorité de ces modèles sont limités au traitement d'images de basse résolution, ce qui restreint leur efficacité dans les tâches de perception nécessitant des informations visuelles détaillées. Dans notre étude, nous présentons MG-LLaVA, un MLLM innovant qui améliore les capacités de traitement visuel du modèle en intégrant un flux visuel multi-granularité, comprenant des caractéristiques de basse résolution, de haute résolution et centrées sur les objets. Nous proposons l'intégration d'un encodeur visuel supplémentaire de haute résolution pour capturer des détails fins, qui sont ensuite fusionnés avec les caractéristiques visuelles de base via un réseau de fusion Conv-Gate. Pour affiner davantage les capacités de reconnaissance d'objets du modèle, nous incorporons des caractéristiques au niveau des objets dérivées des boîtes englobantes identifiées par des détecteurs hors ligne. Entraîné uniquement sur des données multimodales publiquement disponibles via l'ajustement par instruction, MG-LLaVA démontre des compétences de perception exceptionnelles. Nous instancions MG-LLaVA avec une grande variété d'encodeurs de langage, allant de 3,8B à 34B, pour évaluer de manière exhaustive les performances du modèle. Des évaluations approfondies sur plusieurs benchmarks montrent que MG-LLaVA surpasse les MLLMs existants de tailles de paramètres comparables, démontrant ainsi son efficacité remarquable. Le code sera disponible à l'adresse https://github.com/PhoenixZ810/MG-LLaVA.

English

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

MG-LLaVA : Vers un réglage d'instructions visuelles multi-granularité

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

papers.abstract

Support