LLaVA-UHD v2: Ein MLLM, das eine hochauflösende Merkmalspyramide über den hierarchischen Fenstertransformator integriert
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
December 18, 2024
Autoren: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI
Zusammenfassung
In multimodalen großen Sprachmodellen (MLLMs) werden Vision-Transformer (ViTs) weit verbreitet zur visuellen Kodierung eingesetzt. Ihre Leistung bei der Lösung universeller MLLM-Aufgaben ist jedoch nicht zufriedenstellend. Wir führen dies auf einen Mangel an Informationen aus verschiedenen visuellen Ebenen zurück, der die Ausrichtung mit den verschiedenen semantischen Granularitäten, die für die Sprachgenerierung erforderlich sind, behindert. Um dieses Problem zu lösen, präsentieren wir LLaVA-UHD v2, ein fortschrittliches MLLM, das um einen hierarchischen Fenster-Transformer zentriert ist, der es ermöglicht, diverse visuelle Granularitäten zu erfassen, indem er eine hochauflösende Merkmalspyramide konstruiert und integriert. Als Vision-Sprach-Projektor umfasst der Hiwin-Transformer zwei Hauptmodule: (i) eine inverse Merkmalspyramide, die durch einen ViT-abgeleiteten Merkmals-Up-Sampling-Prozess konstruiert wird, der hochfrequente Details aus einer Bildpyramide nutzt, und (ii) hierarchische Fensteraufmerksamkeit, die sich auf eine Reihe von Schlüsselabtastmerkmalen innerhalb von übergeordneten Skalenfenstern konzentriert, um mehrstufige Merkmalskarten zu kondensieren. Umfangreiche Experimente zeigen, dass LLaVA-UHD v2 eine überlegene Leistung gegenüber bestehenden MLLMs auf beliebten Benchmarks erzielt. Bemerkenswert ist, dass unser Design im Durchschnitt eine Steigerung von 3,7% über 14 Benchmarks im Vergleich zur Basismethode bringt, beispielsweise 9,3% bei DocVQA. Wir stellen alle Daten, Modell-Checkpoints und den Code öffentlich zur Verfügung, um zukünftige Forschung zu erleichtern.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are
widely employed for visual encoding. However, their performance in solving
universal MLLM tasks is not satisfactory. We attribute it to a lack of
information from diverse visual levels, impeding alignment with the various
semantic granularity required for language generation. To address this issue,
we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window
transformer that enables capturing diverse visual granularity by constructing
and integrating a high-resolution feature pyramid. As a vision-language
projector, Hiwin transformer comprises two primary modules: (i) an inverse
feature pyramid, constructed by a ViT-derived feature up-sampling process
utilizing high-frequency details from an image pyramid, and (ii) hierarchical
window attention, focusing on a set of key sampling features within cross-scale
windows to condense multi-level feature maps. Extensive experiments demonstrate
that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular
benchmarks. Notably, our design brings an average boost of 3.7% across 14
benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We
make all the data, model checkpoint, and code publicly available to facilitate
future research.Summary
AI-Generated Summary