ConvLLaVA : Architectures hiérarchiques comme encodeur visuel pour les grands modèles multimodaux
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
Auteurs: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
Résumé
Les modèles multimodaux de grande taille à haute résolution (LMM) font face aux défis des tokens visuels excessifs et de la complexité visuelle quadratique. Les LMM à haute résolution actuels traitent la complexité quadratique tout en générant toujours des tokens visuels excessifs. Cependant, la redondance dans les tokens visuels est le problème clé, car elle entraîne une consommation de calcul plus importante. Pour atténuer ce problème, nous proposons ConvLLaVA, qui utilise ConvNeXt, une architecture hiérarchique, comme encodeur visuel du LMM pour remplacer le Vision Transformer (ViT). ConvLLaVA compresse les images haute résolution en caractéristiques visuelles riches en informations, empêchant efficacement la génération de tokens visuels excessifs. Pour améliorer les capacités de ConvLLaVA, nous proposons deux optimisations critiques. Comme le ConvNeXt pré-entraîné en basse résolution sous-performe lorsqu'il est appliqué directement en haute résolution, nous le mettons à jour pour combler cet écart. De plus, comme le taux de compression original de ConvNeXt est insuffisant pour des entrées de résolution beaucoup plus élevée, nous entraînons une étape successive pour compresser davantage les tokens visuels, réduisant ainsi la redondance. Ces optimisations permettent à ConvLLaVA de supporter des entrées de résolution 1536x1536 en générant seulement 576 tokens visuels, capables de gérer des images de rapport d'aspect arbitraire. Les résultats expérimentaux montrent que notre méthode atteint des performances compétitives avec les modèles de pointe sur les benchmarks courants. La série de modèles ConvLLaVA est disponible publiquement à l'adresse https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.Summary
AI-Generated Summary