ChatPaper.aiChatPaper

LLaVA-UHD: un modelo de lenguaje multimodal capaz de percibir imágenes en cualquier relación de aspecto y en alta resolución

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

March 18, 2024
Autores: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI

Resumen

La codificación visual constituye la base de los modelos multimodales grandes (LMMs) para comprender el mundo visual. Los LMMs convencionales procesan imágenes en tamaños fijos y resoluciones limitadas, mientras que las exploraciones recientes en esta dirección presentan limitaciones en adaptabilidad, eficiencia e incluso corrección. En este trabajo, primero tomamos GPT-4V y LLaVA-1.5 como ejemplos representativos y exponemos fallos sistemáticos arraigados en su estrategia de codificación visual. Para abordar estos desafíos, presentamos LLaVA-UHD, un modelo multimodal grande que puede percibir eficientemente imágenes en cualquier relación de aspecto y alta resolución. LLaVA-UHD incluye tres componentes clave: (1) Una estrategia de modularización de imágenes que divide las imágenes en resolución nativa en segmentos más pequeños de tamaño variable para una codificación eficiente y extensible, (2) un módulo de compresión que condensa aún más los tokens de imagen de los codificadores visuales, y (3) un esquema espacial para organizar los tokens de segmentos para los LLMs. Experimentos exhaustivos muestran que LLaVA-UHD supera a los LMMs establecidos entrenados con 2-3 órdenes de magnitud más de datos en 9 benchmarks. Notablemente, nuestro modelo basado en LLaVA-1.5 336x336 soporta imágenes con una resolución 6 veces mayor (es decir, 672x1088) utilizando solo el 94% del cómputo de inferencia, y logra una mejora de 6.4 puntos en precisión en TextVQA. Además, el modelo puede ser entrenado eficientemente en entornos académicos, en menos de 23 horas con 8 GPUs A100 (frente a las 26 horas de LLaVA-1.5). Hacemos los datos y el código disponibles públicamente en https://github.com/thunlp/LLaVA-UHD.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.
PDF171December 15, 2024