MG-LLaVA : Vers un réglage d'instructions visuelles multi-granularité
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Auteurs: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Résumé
Les modèles de langage multi-modaux de grande taille (MLLMs) ont réalisé des progrès significatifs dans diverses tâches de compréhension visuelle. Cependant, la majorité de ces modèles sont limités au traitement d'images de basse résolution, ce qui restreint leur efficacité dans les tâches de perception nécessitant des informations visuelles détaillées. Dans notre étude, nous présentons MG-LLaVA, un MLLM innovant qui améliore les capacités de traitement visuel du modèle en intégrant un flux visuel multi-granularité, comprenant des caractéristiques de basse résolution, de haute résolution et centrées sur les objets. Nous proposons l'intégration d'un encodeur visuel supplémentaire de haute résolution pour capturer des détails fins, qui sont ensuite fusionnés avec les caractéristiques visuelles de base via un réseau de fusion Conv-Gate. Pour affiner davantage les capacités de reconnaissance d'objets du modèle, nous incorporons des caractéristiques au niveau des objets dérivées des boîtes englobantes identifiées par des détecteurs hors ligne. Entraîné uniquement sur des données multimodales publiquement disponibles via l'ajustement par instruction, MG-LLaVA démontre des compétences de perception exceptionnelles. Nous instancions MG-LLaVA avec une grande variété d'encodeurs de langage, allant de 3,8B à 34B, pour évaluer de manière exhaustive les performances du modèle. Des évaluations approfondies sur plusieurs benchmarks montrent que MG-LLaVA surpasse les MLLMs existants de tailles de paramètres comparables, démontrant ainsi son efficacité remarquable. Le code sera disponible à l'adresse https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.Summary
AI-Generated Summary