LLaVA-UHD v2 : un MLLM intégrant une pyramide de caractéristiques haute résolution via un transformateur de fenêtre hiérarchique
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
December 18, 2024
Auteurs: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI
Résumé
Dans les grands modèles de langage multimodaux (MLLM), les transformateurs de vision (ViTs) sont largement utilisés pour l'encodage visuel. Cependant, leur performance dans la résolution des tâches universelles des MLLM n'est pas satisfaisante. Nous l'attribuons à un manque d'informations provenant de divers niveaux visuels, entravant l'alignement avec les différentes granularités sémantiques requises pour la génération de langage. Pour résoudre ce problème, nous présentons LLaVA-UHD v2, un MLLM avancé centré autour d'un transformateur de fenêtre hiérarchique qui permet de capturer une diversité de granularité visuelle en construisant et en intégrant une pyramide de caractéristiques haute résolution. En tant que projecteur vision-langage, le transformateur Hiwin comprend deux modules principaux : (i) une pyramide de caractéristiques inverse, construite par un processus de sur-échantillonnage de caractéristiques dérivées de ViT utilisant des détails haute fréquence d'une pyramide d'images, et (ii) une attention de fenêtre hiérarchique, se concentrant sur un ensemble de caractéristiques d'échantillonnage clés dans des fenêtres inter-échelles pour condenser des cartes de caractéristiques multi-niveaux. Des expériences approfondies démontrent que LLaVA-UHD v2 atteint des performances supérieures aux MLLM existants sur des benchmarks populaires. Notamment, notre conception apporte une amélioration moyenne de 3,7 % sur 14 benchmarks par rapport à la méthode de référence, 9,3 % sur DocVQA par exemple. Nous mettons toutes les données, les points de contrôle du modèle et le code publiquement disponibles pour faciliter les recherches futures.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are
widely employed for visual encoding. However, their performance in solving
universal MLLM tasks is not satisfactory. We attribute it to a lack of
information from diverse visual levels, impeding alignment with the various
semantic granularity required for language generation. To address this issue,
we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window
transformer that enables capturing diverse visual granularity by constructing
and integrating a high-resolution feature pyramid. As a vision-language
projector, Hiwin transformer comprises two primary modules: (i) an inverse
feature pyramid, constructed by a ViT-derived feature up-sampling process
utilizing high-frequency details from an image pyramid, and (ii) hierarchical
window attention, focusing on a set of key sampling features within cross-scale
windows to condense multi-level feature maps. Extensive experiments demonstrate
that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular
benchmarks. Notably, our design brings an average boost of 3.7% across 14
benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We
make all the data, model checkpoint, and code publicly available to facilitate
future research.Summary
AI-Generated Summary