ChatPaper.aiChatPaper

INF-LLaVA: 고해상도 멀티모달 대규모 언어 모델을 위한 이중 관점 인식

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

July 23, 2024
저자: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI

초록

데이터 가용성과 컴퓨팅 자원의 발전으로 인해, 멀티모달 대형 언어 모델(MLLMs)은 다양한 분야에서 그 능력을 입증해 왔습니다. 그러나 MLLMs의 비전 인코더가 가지는 2차 복잡도는 입력 이미지의 해상도를 제한하는 요인으로 작용합니다. 현재 대부분의 접근법은 고해상도 이미지를 더 작은 하위 이미지로 잘라내어 비전 인코더가 이를 독립적으로 처리하는 방식으로 이 문제를 완화합니다. 이러한 하위 이미지는 충분한 지역적 세부 사항을 포착하지만, 전역적 맥락이 부족하고 서로 상호작용하지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 고해상도 이미지 인식을 효과적으로 수행할 수 있는 새로운 MLLM인 INF-LLaVA를 제안합니다. INF-LLaVA는 두 가지 혁신적인 구성 요소를 포함합니다. 첫째, 지역적 관점에서 연속적인 세부 사항과 전역적 관점에서 포괄적인 정보를 포함하도록 각 하위 이미지를 보장하는 이중 관점 자르기 모듈(DCM)을 도입했습니다. 둘째, 전역적 및 지역적 특징이 상호 강화될 수 있도록 이중 관점 강화 모듈(DEM)을 도입하여, INF-LLaVA가 세부적인 지역 정보와 포괄적인 전역 맥락을 동시에 포착함으로써 고해상도 이미지를 효과적으로 처리할 수 있게 했습니다. 다양한 벤치마크에 대한 실험을 통해 INF-LLaVA가 기존 MLLMs를 능가하는 성능을 보임을 입증했으며, 코드와 사전 학습된 모델은 https://github.com/WeihuangLin/INF-LLaVA에서 확인할 수 있습니다.
English
With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.

Summary

AI-Generated Summary

PDF133November 28, 2024