ChatPaper.aiChatPaper

INF-LLaVA : Perception à double perspective pour un modèle de langage multimodal haute résolution

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

July 23, 2024
Auteurs: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI

Résumé

Avec les avancées en matière de disponibilité des données et de ressources de calcul, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) ont démontré des capacités dans divers domaines. Cependant, la complexité quadratique de l'encodeur visuel dans les MLLMs limite la résolution des images d'entrée. La plupart des approches actuelles atténuent ce problème en découpant les images haute résolution en sous-images plus petites, qui sont ensuite traitées indépendamment par l'encodeur visuel. Bien qu'elles capturent suffisamment de détails locaux, ces sous-images manquent de contexte global et n'interagissent pas entre elles. Pour pallier cette limitation, nous proposons un nouveau MLLM, INF-LLaVA, conçu pour une perception efficace des images haute résolution. INF-LLaVA intègre deux composants innovants. Premièrement, nous introduisons un Module de Découpage Dual-perspective (DCM), qui garantit que chaque sous-image contient des détails continus d'un point de vue local et des informations complètes d'un point de vue global. Deuxièmement, nous introduisons un Module d'Amélioration Dual-perspective (DEM) pour permettre l'amélioration mutuelle des caractéristiques globales et locales, permettant à INF-LLaVA de traiter efficacement les images haute résolution en capturant simultanément des informations locales détaillées et un contexte global complet. Des études d'ablation approfondies valident l'efficacité de ces composants, et des expériences sur un ensemble diversifié de benchmarks démontrent qu'INF-LLaVA surpasse les MLLMs existants. Le code et le modèle pré-entraîné sont disponibles à l'adresse https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.

Summary

AI-Generated Summary

PDF133November 28, 2024