LLaVA-UHD: un Modello Linguistico Multimodale in grado di Percepire Immagini con Qualsiasi Proporzione e ad Alta Risoluzione

Abstract

La codifica visiva costituisce la base dei grandi modelli multimodali (LMM) per la comprensione del mondo visivo. I LMM convenzionali elaborano immagini di dimensioni fisse e risoluzioni limitate, mentre le recenti esplorazioni in questa direzione presentano limitazioni in termini di adattabilità, efficienza e persino correttezza. In questo lavoro, prendiamo inizialmente GPT-4V e LLaVA-1.5 come esempi rappresentativi e evidenziamo difetti sistematici radicati nella loro strategia di codifica visiva. Per affrontare queste sfide, presentiamo LLaVA-UHD, un grande modello multimodale in grado di percepire in modo efficiente immagini con qualsiasi rapporto d'aspetto e ad alta risoluzione. LLaVA-UHD include tre componenti chiave: (1) Una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in sezioni più piccole di dimensioni variabili per una codifica efficiente ed estensibile, (2) un modulo di compressione che riduce ulteriormente i token delle immagini provenienti dai codificatori visivi, e (3) uno schema spaziale per organizzare i token delle sezioni per i LLM. Esperimenti completi dimostrano che LLaVA-UHD supera i LMM consolidati addestrati con 2-3 ordini di grandezza in più di dati su 9 benchmark. In particolare, il nostro modello basato su LLaVA-1.5 336x336 supporta immagini con una risoluzione 6 volte maggiore (672x1088) utilizzando solo il 94% del calcolo di inferenza e raggiunge un miglioramento di 6,4 punti di accuratezza su TextVQA. Inoltre, il modello può essere addestrato in modo efficiente in contesti accademici, entro 23 ore su 8 GPU A100 (rispetto alle 26 ore di LLaVA-1.5). Rendiamo disponibili pubblicamente dati e codice all'indirizzo https://github.com/thunlp/LLaVA-UHD.

English

Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.

LLaVA-UHD: un Modello Linguistico Multimodale in grado di Percepire Immagini con Qualsiasi Proporzione e ad Alta Risoluzione

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Abstract

Support