ChatPaper.aiChatPaper

LLaVA-UHD: модель с многомасштабным механизмом внимания для восприятия изображений любого соотношения сторон и высокого разрешения

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

March 18, 2024
Авторы: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI

Аннотация

Визуальное кодирование составляет основу крупных мультимодальных моделей (LMM) в понимании визуального мира. Традиционные LMM обрабатывают изображения фиксированных размеров и ограниченного разрешения, в то время как недавние исследования в этом направлении ограничены в адаптивности, эффективности и даже правильности. В данной работе мы в первую очередь рассматриваем GPT-4V и LLaVA-1.5 в качестве репрезентативных примеров и выявляем систематические недостатки, заложенные в их стратегии визуального кодирования. Для решения поставленных задач мы представляем LLaVA-UHD, крупную мультимодальную модель, способную эффективно воспринимать изображения любого соотношения сторон и высокого разрешения. LLaVA-UHD включает три ключевых компонента: (1) стратегию модуляризации изображений, которая разделяет изображения нативного разрешения на более мелкие сегменты переменного размера для эффективного и расширяемого кодирования, (2) модуль сжатия, который дополнительно уплотня токены изображений от визуальных кодировщиков, и (3) пространственную схему для организации сегментов для LMM. Комплексные эксперименты показывают, что LLaVA-UHD превосходит установленные LMM, обученные на 2-3 порядка большем объеме данных, на 9 бенчмарках. Особенно стоит отметить, что наша модель, построенная на LLaVA-1.5 336x336, поддерживает изображения разрешением в 6 раз большем (т.е. 672x1088), используя всего лишь 94% вычислительных ресурсов для вывода, и достигает улучшения точности на 6.4 в задаче TextVQA. Более того, модель может быть эффективно обучена в академических условиях за 23 часа на 8 GPU A100 (в сравнении с 26 часами для LLaVA-1.5). Мы предоставляем данные и код публично по адресу https://github.com/thunlp/LLaVA-UHD.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.

Summary

AI-Generated Summary

PDF171December 15, 2024