LLaVA-UHD: een LMM die elk beeldverhouding en hoogresolutiebeelden kan waarnemen
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
March 18, 2024
Auteurs: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI
Samenvatting
Visuele codering vormt de basis van grote multimodale modellen (LMMs) voor het begrijpen van de visuele wereld. Traditionele LMMs verwerken afbeeldingen in vaste formaten en beperkte resoluties, terwijl recente onderzoeken op dit gebied beperkt zijn in aanpassingsvermogen, efficiëntie en zelfs correctheid. In dit werk nemen we eerst GPT-4V en LLaVA-1.5 als representatieve voorbeelden en leggen we systematische tekortkomingen bloot die geworteld zijn in hun visuele coderingsstrategie. Om deze uitdagingen aan te pakken, presenteren we LLaVA-UHD, een groot multimodaal model dat efficiënt afbeeldingen kan waarnemen in elke beeldverhouding en hoge resolutie. LLaVA-UHD omvat drie belangrijke componenten: (1) Een beeldmodularisatiestrategie die afbeeldingen in native resolutie verdeelt in kleinere, variabel grote segmenten voor efficiënte en uitbreidbare codering, (2) een compressiemodule die beeldtokens van visuele encoders verder comprimeert, en (3) een ruimtelijk schema om segmenttokens te organiseren voor LLMs. Uitgebreide experimenten tonen aan dat LLaVA-UHD gevestigde LMMs overtreft die getraind zijn met 2-3 ordes van grootte meer data op 9 benchmarks. Opmerkelijk is dat ons model, gebaseerd op LLaVA-1.5 336x336, afbeeldingen met een 6 keer grotere resolutie (d.w.z. 672x1088) ondersteunt met slechts 94% van de inferentieberekeningen, en een nauwkeurigheidsverbetering van 6,4 behaalt op TextVQA. Bovendien kan het model efficiënt worden getraind in academische omgevingen, binnen 23 uur op 8 A100 GPU's (vs. 26 uur voor LLaVA-1.5). We maken de data en code publiekelijk beschikbaar op https://github.com/thunlp/LLaVA-UHD.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in
understanding the visual world. Conventional LMMs process images in fixed sizes
and limited resolutions, while recent explorations in this direction are
limited in adaptivity, efficiency, and even correctness. In this work, we first
take GPT-4V and LLaVA-1.5 as representative examples and expose systematic
flaws rooted in their visual encoding strategy. To address the challenges, we
present LLaVA-UHD, a large multimodal model that can efficiently perceive
images in any aspect ratio and high resolution. LLaVA-UHD includes three key
components: (1) An image modularization strategy that divides native-resolution
images into smaller variable-sized slices for efficient and extensible
encoding, (2) a compression module that further condenses image tokens from
visual encoders, and (3) a spatial schema to organize slice tokens for LLMs.
Comprehensive experiments show that LLaVA-UHD outperforms established LMMs
trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our
model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088)
resolution images using only 94% inference computation, and achieves 6.4
accuracy improvement on TextVQA. Moreover, the model can be efficiently trained
in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of
LLaVA-1.5). We make the data and code publicly available at
https://github.com/thunlp/LLaVA-UHD.