ChatPaper.aiChatPaper

INF-LLaVA: 高解像度マルチモーダル大規模言語モデルのためのデュアルパースペクティブ知覚

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

July 23, 2024
著者: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI

要旨

データの可用性と計算リソースの進展に伴い、マルチモーダル大規模言語モデル(MLLMs)はさまざまな分野でその能力を発揮してきました。しかし、MLLMsにおける視覚エンコーダの二次的な複雑さは、入力画像の解像度を制約しています。現在のほとんどのアプローチでは、高解像度画像を小さなサブ画像に切り取り、視覚エンコーダによって独立して処理することでこの問題を緩和しています。これらのサブ画像は十分な局所的な詳細を捉えているものの、グローバルなコンテキストが欠如しており、互いに相互作用することができません。この制限を解決するため、我々は高解像度画像の効果的な知覚を目的とした新しいMLLM、INF-LLaVAを提案します。INF-LLaVAは、2つの革新的なコンポーネントを組み込んでいます。まず、Dual-perspective Cropping Module(DCM)を導入し、各サブ画像が局所的な視点からの連続した詳細とグローバルな視点からの包括的な情報を含むようにします。次に、Dual-perspective Enhancement Module(DEM)を導入し、グローバルとローカルの特徴の相互強化を可能にし、INF-LLaVAが詳細な局所情報と包括的なグローバルコンテキストを同時に捉えることで高解像度画像を効果的に処理できるようにします。広範なアブレーションスタディはこれらのコンポーネントの有効性を検証し、多様なベンチマークでの実験により、INF-LLaVAが既存のMLLMsを上回ることを示しています。コードと事前学習済みモデルはhttps://github.com/WeihuangLin/INF-LLaVAで公開されています。
English
With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.

Summary

AI-Generated Summary

PDF133November 28, 2024