INF-LLaVA: Двухперспективное восприятие для многорежимной модели большого языка высокого разрешения
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
July 23, 2024
Авторы: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI
Аннотация
С развитием доступности данных и вычислительных ресурсов Многомодельные Большие Языковые Модели (MLLMs) продемонстрировали свои возможности в различных областях. Однако квадратичная сложность видеоэнкодера в MLLMs ограничивает разрешение входных изображений. Большинство текущих подходов смягчают эту проблему, обрезая высокоразрешенные изображения на более мелкие подизображения, которые затем обрабатываются независимо видеоэнкодером. Несмотря на то, что такие подизображения захватывают достаточно локальных деталей, они лишены глобального контекста и не взаимодействуют друг с другом. Для решения этого ограничения мы предлагаем новую MLLM, INF-LLaVA, разработанную для эффективного восприятия высокоразрешенных изображений. INF-LLaVA включает два инновационных компонента. Во-первых, мы представляем Модуль Обрезки с Двойной Перспективой (DCM), который обеспечивает, что каждое подизображение содержит непрерывные детали с локальной перспективы и всестороннюю информацию с глобальной перспективы. Во-вторых, мы вводим Модуль Улучшения с Двойной Перспективой (DEM) для возможности взаимного улучшения глобальных и локальных особенностей, позволяя INF-LLaVA эффективно обрабатывать высокоразрешенные изображения, одновременно захватывая детальную локальную информацию и всесторонний глобальный контекст. Обширные исследования по абляции подтверждают эффективность этих компонентов, а эксперименты на разнообразном наборе бенчмарков показывают, что INF-LLaVA превосходит существующие MLLMs. Код и предобученная модель доступны по ссылке https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal
Large Language Models (MLLMs) have showcased capabilities across various
fields. However, the quadratic complexity of the vision encoder in MLLMs
constrains the resolution of input images. Most current approaches mitigate
this issue by cropping high-resolution images into smaller sub-images, which
are then processed independently by the vision encoder. Despite capturing
sufficient local details, these sub-images lack global context and fail to
interact with one another. To address this limitation, we propose a novel MLLM,
INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA
incorporates two innovative components. First, we introduce a Dual-perspective
Cropping Module (DCM), which ensures that each sub-image contains continuous
details from a local perspective and comprehensive information from a global
perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to
enable the mutual enhancement of global and local features, allowing INF-LLaVA
to effectively process high-resolution images by simultaneously capturing
detailed local information and comprehensive global context. Extensive ablation
studies validate the effectiveness of these components, and experiments on a
diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing
MLLMs. Code and pretrained model are available at
https://github.com/WeihuangLin/INF-LLaVA.Summary
AI-Generated Summary