INF-LLaVA: Dual-perspectief Waarneming voor Hoogresolutie Multimodale Grote Taalmodellen
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
July 23, 2024
Auteurs: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI
Samenvatting
Met de vooruitgang in de beschikbaarheid van gegevens en rekenbronnen hebben Multimodale Grote Taalmodellen (MLLMs) hun capaciteiten getoond op diverse gebieden. De kwadratische complexiteit van de visuele encoder in MLLMs beperkt echter de resolutie van invoerafbeeldingen. De meeste huidige benaderingen verlichten dit probleem door hoogresolutieafbeeldingen te verknippen in kleinere subafbeeldingen, die vervolgens onafhankelijk door de visuele encoder worden verwerkt. Hoewel deze subafbeeldingen voldoende lokale details vastleggen, ontbreekt het hen aan globale context en kunnen ze niet met elkaar interacteren. Om deze beperking aan te pakken, stellen we een nieuw MLLM voor, INF-LLaVA, ontworpen voor effectieve waarneming van hoogresolutieafbeeldingen. INF-LLaVA bevat twee innovatieve componenten. Ten eerste introduceren we een Dual-perspectief Verknippingsmodule (DCM), die ervoor zorgt dat elke subafbeelding continue details bevat vanuit een lokaal perspectief en uitgebreide informatie vanuit een globaal perspectief. Ten tweede introduceren we een Dual-perspectief Versterkingsmodule (DEM) om de wederzijdse versterking van globale en lokale kenmerken mogelijk te maken, waardoor INF-LLaVA hoogresolutieafbeeldingen effectief kan verwerken door tegelijkertijd gedetailleerde lokale informatie en uitgebreide globale context vast te leggen. Uitgebreide ablatiestudies valideren de effectiviteit van deze componenten, en experimenten op een diverse set van benchmarks tonen aan dat INF-LLaVA bestaande MLLMs overtreft. Code en vooraf getraind model zijn beschikbaar op https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal
Large Language Models (MLLMs) have showcased capabilities across various
fields. However, the quadratic complexity of the vision encoder in MLLMs
constrains the resolution of input images. Most current approaches mitigate
this issue by cropping high-resolution images into smaller sub-images, which
are then processed independently by the vision encoder. Despite capturing
sufficient local details, these sub-images lack global context and fail to
interact with one another. To address this limitation, we propose a novel MLLM,
INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA
incorporates two innovative components. First, we introduce a Dual-perspective
Cropping Module (DCM), which ensures that each sub-image contains continuous
details from a local perspective and comprehensive information from a global
perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to
enable the mutual enhancement of global and local features, allowing INF-LLaVA
to effectively process high-resolution images by simultaneously capturing
detailed local information and comprehensive global context. Extensive ablation
studies validate the effectiveness of these components, and experiments on a
diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing
MLLMs. Code and pretrained model are available at
https://github.com/WeihuangLin/INF-LLaVA.