INF-LLaVA : Perception à double perspective pour un modèle de langage multimodal haute résolution
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
July 23, 2024
Auteurs: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI
Résumé
Avec les avancées en matière de disponibilité des données et de ressources de calcul, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) ont démontré des capacités dans divers domaines. Cependant, la complexité quadratique de l'encodeur visuel dans les MLLMs limite la résolution des images d'entrée. La plupart des approches actuelles atténuent ce problème en découpant les images haute résolution en sous-images plus petites, qui sont ensuite traitées indépendamment par l'encodeur visuel. Bien qu'elles capturent suffisamment de détails locaux, ces sous-images manquent de contexte global et n'interagissent pas entre elles. Pour pallier cette limitation, nous proposons un nouveau MLLM, INF-LLaVA, conçu pour une perception efficace des images haute résolution. INF-LLaVA intègre deux composants innovants. Premièrement, nous introduisons un Module de Découpage Dual-perspective (DCM), qui garantit que chaque sous-image contient des détails continus d'un point de vue local et des informations complètes d'un point de vue global. Deuxièmement, nous introduisons un Module d'Amélioration Dual-perspective (DEM) pour permettre l'amélioration mutuelle des caractéristiques globales et locales, permettant à INF-LLaVA de traiter efficacement les images haute résolution en capturant simultanément des informations locales détaillées et un contexte global complet. Des études d'ablation approfondies valident l'efficacité de ces composants, et des expériences sur un ensemble diversifié de benchmarks démontrent qu'INF-LLaVA surpasse les MLLMs existants. Le code et le modèle pré-entraîné sont disponibles à l'adresse https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal
Large Language Models (MLLMs) have showcased capabilities across various
fields. However, the quadratic complexity of the vision encoder in MLLMs
constrains the resolution of input images. Most current approaches mitigate
this issue by cropping high-resolution images into smaller sub-images, which
are then processed independently by the vision encoder. Despite capturing
sufficient local details, these sub-images lack global context and fail to
interact with one another. To address this limitation, we propose a novel MLLM,
INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA
incorporates two innovative components. First, we introduce a Dual-perspective
Cropping Module (DCM), which ensures that each sub-image contains continuous
details from a local perspective and comprehensive information from a global
perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to
enable the mutual enhancement of global and local features, allowing INF-LLaVA
to effectively process high-resolution images by simultaneously capturing
detailed local information and comprehensive global context. Extensive ablation
studies validate the effectiveness of these components, and experiments on a
diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing
MLLMs. Code and pretrained model are available at
https://github.com/WeihuangLin/INF-LLaVA.Summary
AI-Generated Summary