ChatPaper.aiChatPaper

ConvLLaVA : Architectures hiérarchiques comme encodeur visuel pour les grands modèles multimodaux

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24, 2024
Auteurs: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI

Résumé

Les modèles multimodaux de grande taille à haute résolution (LMM) font face aux défis des tokens visuels excessifs et de la complexité visuelle quadratique. Les LMM à haute résolution actuels traitent la complexité quadratique tout en générant toujours des tokens visuels excessifs. Cependant, la redondance dans les tokens visuels est le problème clé, car elle entraîne une consommation de calcul plus importante. Pour atténuer ce problème, nous proposons ConvLLaVA, qui utilise ConvNeXt, une architecture hiérarchique, comme encodeur visuel du LMM pour remplacer le Vision Transformer (ViT). ConvLLaVA compresse les images haute résolution en caractéristiques visuelles riches en informations, empêchant efficacement la génération de tokens visuels excessifs. Pour améliorer les capacités de ConvLLaVA, nous proposons deux optimisations critiques. Comme le ConvNeXt pré-entraîné en basse résolution sous-performe lorsqu'il est appliqué directement en haute résolution, nous le mettons à jour pour combler cet écart. De plus, comme le taux de compression original de ConvNeXt est insuffisant pour des entrées de résolution beaucoup plus élevée, nous entraînons une étape successive pour compresser davantage les tokens visuels, réduisant ainsi la redondance. Ces optimisations permettent à ConvLLaVA de supporter des entrées de résolution 1536x1536 en générant seulement 576 tokens visuels, capables de gérer des images de rapport d'aspect arbitraire. Les résultats expérimentaux montrent que notre méthode atteint des performances compétitives avec les modèles de pointe sur les benchmarks courants. La série de modèles ConvLLaVA est disponible publiquement à l'adresse https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.

Summary

AI-Generated Summary

PDF477December 15, 2024