LLaVA-UHD v2 : un MLLM intégrant une pyramide de caractéristiques haute résolution via un transformateur de fenêtre hiérarchique

papers.abstract

Dans les grands modèles de langage multimodaux (MLLM), les transformateurs de vision (ViTs) sont largement utilisés pour l'encodage visuel. Cependant, leur performance dans la résolution des tâches universelles des MLLM n'est pas satisfaisante. Nous l'attribuons à un manque d'informations provenant de divers niveaux visuels, entravant l'alignement avec les différentes granularités sémantiques requises pour la génération de langage. Pour résoudre ce problème, nous présentons LLaVA-UHD v2, un MLLM avancé centré autour d'un transformateur de fenêtre hiérarchique qui permet de capturer une diversité de granularité visuelle en construisant et en intégrant une pyramide de caractéristiques haute résolution. En tant que projecteur vision-langage, le transformateur Hiwin comprend deux modules principaux : (i) une pyramide de caractéristiques inverse, construite par un processus de sur-échantillonnage de caractéristiques dérivées de ViT utilisant des détails haute fréquence d'une pyramide d'images, et (ii) une attention de fenêtre hiérarchique, se concentrant sur un ensemble de caractéristiques d'échantillonnage clés dans des fenêtres inter-échelles pour condenser des cartes de caractéristiques multi-niveaux. Des expériences approfondies démontrent que LLaVA-UHD v2 atteint des performances supérieures aux MLLM existants sur des benchmarks populaires. Notamment, notre conception apporte une amélioration moyenne de 3,7 % sur 14 benchmarks par rapport à la méthode de référence, 9,3 % sur DocVQA par exemple. Nous mettons toutes les données, les points de contrôle du modèle et le code publiquement disponibles pour faciliter les recherches futures.

English

In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.

LLaVA-UHD v2 : un MLLM intégrant une pyramide de caractéristiques haute résolution via un transformateur de fenêtre hiérarchique

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

papers.abstract

Support