ChatPaper.aiChatPaper

LLaVA-UHD v2: een MLLM die een hoge-resolutie kenmerkenpiramide integreert via een hiërarchische venstertransformator.

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

December 18, 2024
Auteurs: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI

Samenvatting

In multimodale grote taalmodellen (MLLM's) worden visietransformatoren (ViTs) veel gebruikt voor visuele codering. Hun prestaties bij het oplossen van universele MLLM-taken zijn echter niet bevredigend. We schrijven dit toe aan een gebrek aan informatie van diverse visuele niveaus, waardoor de afstemming met de verschillende semantische granulariteit die nodig is voor taalgeneratie wordt belemmerd. Om dit probleem aan te pakken, presenteren we LLaVA-UHD v2, een geavanceerd MLLM dat draait om een hiërarchische venstertransformator die het vastleggen van diverse visuele granulariteit mogelijk maakt door het construeren en integreren van een hoogwaardige functiepiramide. Als een visie-taalprojector bestaat de Hiwin-transformator uit twee primaire modules: (i) een omgekeerde functiepiramide, geconstrueerd door een ViT-afgeleid proces voor het vergroten van functies met behulp van hoogfrequente details van een beeldpiramide, en (ii) hiërarchische vensteraandacht, gericht op een reeks belangrijke bemonsteringskenmerken binnen kruisschalige vensters om meerlagige functiekaarten samen te vatten. Uitgebreide experimenten tonen aan dat LLaVA-UHD v2 superieure prestaties behaalt ten opzichte van bestaande MLLM's op populaire benchmarks. Opmerkelijk is dat ons ontwerp een gemiddelde verbetering van 3,7% over 14 benchmarks met zich meebrengt in vergelijking met de basismethode, bijvoorbeeld 9,3% bij DocVQA. We stellen alle gegevens, modelcontrolepunt en code openbaar beschikbaar om toekomstig onderzoek te vergemakkelijken.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.
PDF182December 19, 2024