LLaVA-UHD : un modèle de langage multimodal capable de percevoir des images à n'importe quel ratio d'aspect et en haute résolution
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
March 18, 2024
Auteurs: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI
Résumé
L'encodage visuel constitue la base des modèles multimodaux de grande taille (LMMs) pour la compréhension du monde visuel. Les LMMs conventionnels traitent les images dans des tailles fixes et des résolutions limitées, tandis que les explorations récentes dans cette direction sont restreintes en termes d'adaptabilité, d'efficacité et même de justesse. Dans ce travail, nous prenons d'abord GPT-4V et LLaVA-1.5 comme exemples représentatifs et exposons les défauts systématiques inhérents à leur stratégie d'encodage visuel. Pour relever ces défis, nous présentons LLaVA-UHD, un modèle multimodal de grande taille capable de percevoir efficacement des images dans n'importe quel rapport d'aspect et à haute résolution. LLaVA-UHD comprend trois composants clés : (1) Une stratégie de modularisation des images qui divise les images en résolution native en tranches plus petites de taille variable pour un encodage efficace et extensible, (2) un module de compression qui condense davantage les tokens d'images issus des encodeurs visuels, et (3) un schéma spatial pour organiser les tokens des tranches pour les LLMs. Des expériences approfondies montrent que LLaVA-UHD surpasse les LMMs établis entraînés avec 2 à 3 ordres de grandeur de données supplémentaires sur 9 benchmarks. Notamment, notre modèle basé sur LLaVA-1.5 336x336 supporte des images 6 fois plus grandes (c'est-à-dire 672x1088) en utilisant seulement 94% du calcul d'inférence, et obtient une amélioration de 6,4 points de précision sur TextVQA. De plus, le modèle peut être entraîné efficacement dans des contextes académiques, en moins de 23 heures sur 8 GPU A100 (contre 26 heures pour LLaVA-1.5). Nous mettons les données et le code à disposition publiquement à l'adresse https://github.com/thunlp/LLaVA-UHD.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in
understanding the visual world. Conventional LMMs process images in fixed sizes
and limited resolutions, while recent explorations in this direction are
limited in adaptivity, efficiency, and even correctness. In this work, we first
take GPT-4V and LLaVA-1.5 as representative examples and expose systematic
flaws rooted in their visual encoding strategy. To address the challenges, we
present LLaVA-UHD, a large multimodal model that can efficiently perceive
images in any aspect ratio and high resolution. LLaVA-UHD includes three key
components: (1) An image modularization strategy that divides native-resolution
images into smaller variable-sized slices for efficient and extensible
encoding, (2) a compression module that further condenses image tokens from
visual encoders, and (3) a spatial schema to organize slice tokens for LLMs.
Comprehensive experiments show that LLaVA-UHD outperforms established LMMs
trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our
model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088)
resolution images using only 94% inference computation, and achieves 6.4
accuracy improvement on TextVQA. Moreover, the model can be efficiently trained
in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of
LLaVA-1.5). We make the data and code publicly available at
https://github.com/thunlp/LLaVA-UHD.Summary
AI-Generated Summary