ChatPaper.aiChatPaper

LLaVA-UHD: um Modelo de Linguagem Multimodal capaz de Perceber Imagens em Qualquer Proporção de Aspecto e em Alta Resolução

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

March 18, 2024
Autores: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI

Resumo

A codificação visual constitui a base dos modelos multimodais de grande escala (LMMs) para a compreensão do mundo visual. Os LMMs convencionais processam imagens em tamanhos fixos e resoluções limitadas, enquanto as explorações recentes nessa direção são limitadas em adaptabilidade, eficiência e até mesmo em precisão. Neste trabalho, primeiro tomamos o GPT-4V e o LLaVA-1.5 como exemplos representativos e expomos falhas sistemáticas enraizadas em sua estratégia de codificação visual. Para enfrentar esses desafios, apresentamos o LLaVA-UHD, um modelo multimodal de grande escala que pode perceber imagens de forma eficiente em qualquer proporção e alta resolução. O LLaVA-UHD inclui três componentes principais: (1) Uma estratégia de modularização de imagens que divide imagens em resolução nativa em fatias menores de tamanho variável para uma codificação eficiente e extensível, (2) um módulo de compressão que condensa ainda mais os tokens de imagem dos codificadores visuais, e (3) um esquema espacial para organizar os tokens das fatias para LLMs. Experimentos abrangentes mostram que o LLaVA-UHD supera LMMs estabelecidos treinados com 2-3 ordens de magnitude a mais de dados em 9 benchmarks. Notavelmente, nosso modelo baseado no LLaVA-1.5 336x336 suporta imagens com resolução 6 vezes maior (ou seja, 672x1088) usando apenas 94% da computação de inferência, e alcança uma melhoria de 6,4 pontos de precisão no TextVQA. Além disso, o modelo pode ser treinado de forma eficiente em ambientes acadêmicos, em 23 horas em 8 GPUs A100 (vs. 26 horas do LLaVA-1.5). Disponibilizamos os dados e o código publicamente em https://github.com/thunlp/LLaVA-UHD.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.
PDF171December 15, 2024