ChatPaper.aiChatPaper

INF-LLaVA: Двухперспективное восприятие для многорежимной модели большого языка высокого разрешения

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

July 23, 2024
Авторы: Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
cs.AI

Аннотация

С развитием доступности данных и вычислительных ресурсов Многомодельные Большие Языковые Модели (MLLMs) продемонстрировали свои возможности в различных областях. Однако квадратичная сложность видеоэнкодера в MLLMs ограничивает разрешение входных изображений. Большинство текущих подходов смягчают эту проблему, обрезая высокоразрешенные изображения на более мелкие подизображения, которые затем обрабатываются независимо видеоэнкодером. Несмотря на то, что такие подизображения захватывают достаточно локальных деталей, они лишены глобального контекста и не взаимодействуют друг с другом. Для решения этого ограничения мы предлагаем новую MLLM, INF-LLaVA, разработанную для эффективного восприятия высокоразрешенных изображений. INF-LLaVA включает два инновационных компонента. Во-первых, мы представляем Модуль Обрезки с Двойной Перспективой (DCM), который обеспечивает, что каждое подизображение содержит непрерывные детали с локальной перспективы и всестороннюю информацию с глобальной перспективы. Во-вторых, мы вводим Модуль Улучшения с Двойной Перспективой (DEM) для возможности взаимного улучшения глобальных и локальных особенностей, позволяя INF-LLaVA эффективно обрабатывать высокоразрешенные изображения, одновременно захватывая детальную локальную информацию и всесторонний глобальный контекст. Обширные исследования по абляции подтверждают эффективность этих компонентов, а эксперименты на разнообразном наборе бенчмарков показывают, что INF-LLaVA превосходит существующие MLLMs. Код и предобученная модель доступны по ссылке https://github.com/WeihuangLin/INF-LLaVA.
English
With advancements in data availability and computing resources, Multimodal Large Language Models (MLLMs) have showcased capabilities across various fields. However, the quadratic complexity of the vision encoder in MLLMs constrains the resolution of input images. Most current approaches mitigate this issue by cropping high-resolution images into smaller sub-images, which are then processed independently by the vision encoder. Despite capturing sufficient local details, these sub-images lack global context and fail to interact with one another. To address this limitation, we propose a novel MLLM, INF-LLaVA, designed for effective high-resolution image perception. INF-LLaVA incorporates two innovative components. First, we introduce a Dual-perspective Cropping Module (DCM), which ensures that each sub-image contains continuous details from a local perspective and comprehensive information from a global perspective. Second, we introduce Dual-perspective Enhancement Module (DEM) to enable the mutual enhancement of global and local features, allowing INF-LLaVA to effectively process high-resolution images by simultaneously capturing detailed local information and comprehensive global context. Extensive ablation studies validate the effectiveness of these components, and experiments on a diverse set of benchmarks demonstrate that INF-LLaVA outperforms existing MLLMs. Code and pretrained model are available at https://github.com/WeihuangLin/INF-LLaVA.

Summary

AI-Generated Summary

PDF133November 28, 2024