ChatPaper.aiChatPaper

LLaVA-UHD: Ein LMM, das jedes Seitenverhältnis und hochauflösende Bilder wahrnimmt.

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

March 18, 2024
Autoren: Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
cs.AI

Zusammenfassung

Die visuelle Codierung bildet die Grundlage großer multimodaler Modelle (LMMs) zur Erfassung der visuellen Welt. Herkömmliche LMMs verarbeiten Bilder in festen Größen und begrenzten Auflösungen, während aktuelle Erkundungen in diese Richtung in Bezug auf Anpassungsfähigkeit, Effizienz und sogar Korrektheit eingeschränkt sind. In dieser Arbeit nehmen wir zunächst GPT-4V und LLaVA-1.5 als repräsentative Beispiele und decken systematische Mängel in ihrer visuellen Codierungsstrategie auf. Um den Herausforderungen zu begegnen, präsentieren wir LLaVA-UHD, ein großes multimodales Modell, das Bilder in beliebigen Seitenverhältnissen und hoher Auflösung effizient wahrnehmen kann. LLaVA-UHD umfasst drei Schlüsselkomponenten: (1) Eine Bildmodularisierungsstrategie, die Bilder in nativer Auflösung in kleinere variabel große Abschnitte für eine effiziente und erweiterbare Codierung unterteilt, (2) ein Kompressionsmodul, das Bildtoken von visuellen Encodern weiter verdichtet, und (3) ein räumliches Schema zur Organisation von Abschnittstoken für LLMs. Umfassende Experimente zeigen, dass LLaVA-UHD etablierte LMMs in 9 Benchmarks übertrifft, die mit 2-3 Größenordnungen mehr Daten trainiert wurden. Bemerkenswert ist, dass unser Modell, das auf LLaVA-1.5 336x336 aufbaut, die Auflösung von Bildern um das 6-fache (d.h. 672x1088) erhöht und dabei nur 94% der Inferenzberechnung benötigt und eine Genauigkeitsverbesserung von 6,4 bei TextVQA erzielt. Darüber hinaus kann das Modell effizient in akademischen Umgebungen trainiert werden, innerhalb von 23 Stunden auf 8 A100-GPUs (im Vergleich zu 26 Stunden von LLaVA-1.5). Wir stellen die Daten und den Code öffentlich unter https://github.com/thunlp/LLaVA-UHD zur Verfügung.
English
Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336x336 supports 6 times larger (i.e., 672x1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.

Summary

AI-Generated Summary

PDF171December 15, 2024