ChatPaper.aiChatPaper

ConvLLaVA: Hierarchische Backbones als visueller Encoder für große multimodale Modelle

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24, 2024
Autoren: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI

Zusammenfassung

Hochauflösende Large Multimodal Models (LMMs) stehen vor den Herausforderungen von übermäßigen visuellen Tokens und quadratischer visueller Komplexität. Aktuelle hochauflösende LMMs bewältigen die quadratische Komplexität, erzeugen jedoch immer noch übermäßige visuelle Tokens. Die Redundanz in den visuellen Tokens ist jedoch das Hauptproblem, da dies zu einem erheblichen Rechenaufwand führt. Um dieses Problem zu mildern, schlagen wir ConvLLaVA vor, das ConvNeXt, ein hierarchisches Rückgrat, als visuellen Encoder von LMM verwendet, um den Vision Transformer (ViT) zu ersetzen. ConvLLaVA komprimiert hochauflösende Bilder in informationsreiche visuelle Merkmale, um die Erzeugung übermäßiger visueller Tokens effektiv zu verhindern. Zur Verbesserung der Fähigkeiten von ConvLLaVA schlagen wir zwei entscheidende Optimierungen vor. Da das vortrainierte ConvNeXt mit niedriger Auflösung unterdurchschnittlich abschneidet, wenn es direkt auf hohe Auflösung angewendet wird, aktualisieren wir es, um die Kluft zu überbrücken. Darüber hinaus, da das ursprüngliche Kompressionsverhältnis von ConvNeXt für Eingaben mit viel höherer Auflösung unzureichend ist, trainieren wir eine aufeinanderfolgende Stufe, um die visuellen Tokens weiter zu komprimieren und somit die Redundanz zu reduzieren. Diese Optimierungen ermöglichen es ConvLLaVA, Eingaben mit einer Auflösung von 1536x1536 zu unterstützen, wobei nur 576 visuelle Tokens erzeugt werden, die Bilder mit beliebigen Seitenverhältnissen verarbeiten können. Experimentelle Ergebnisse zeigen, dass unsere Methode eine wettbewerbsfähige Leistung mit modernsten Modellen auf gängigen Benchmarks erzielt. Die ConvLLaVA-Modellreihe ist öffentlich unter https://github.com/alibaba/conv-llava verfügbar.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.

Summary

AI-Generated Summary

PDF477December 15, 2024