ChatPaper.aiChatPaper

ConvLLaVA: Backbone Gerarchici come Encoder Visivo per Modelli Multimodali di Grande Scala

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24, 2024
Autori: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI

Abstract

I modelli multimodali di grandi dimensioni ad alta risoluzione (LMM) affrontano le sfide rappresentate da un eccesso di token visivi e dalla complessità visiva quadratica. Gli attuali LMM ad alta risoluzione gestiscono la complessità quadratica pur continuando a generare un numero eccessivo di token visivi. Tuttavia, la ridondanza nei token visivi è il problema principale, poiché comporta un maggiore carico computazionale. Per mitigare questo problema, proponiamo ConvLLaVA, che utilizza ConvNeXt, un'architettura gerarchica, come codificatore visivo dell'LMM al posto del Vision Transformer (ViT). ConvLLaVA comprime le immagini ad alta risoluzione in caratteristiche visive ricche di informazioni, prevenendo efficacemente la generazione di un eccesso di token visivi. Per potenziare le capacità di ConvLLaVA, proponiamo due ottimizzazioni cruciali. Poiché il ConvNeXt pre-addestrato a bassa risoluzione ha prestazioni inferiori se applicato direttamente ad alta risoluzione, lo aggiorniamo per colmare questo divario. Inoltre, poiché il rapporto di compressione originale di ConvNeXt è insufficiente per input a risoluzioni molto più elevate, addestriamo una fase successiva per comprimere ulteriormente i token visivi, riducendo così la ridondanza. Queste ottimizzazioni consentono a ConvLLaVA di supportare input con risoluzione 1536x1536 generando solo 576 token visivi, in grado di gestire immagini con rapporti d'aspetto arbitrari. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni competitive rispetto ai modelli all'avanguardia sui benchmark principali. La serie di modelli ConvLLaVA è disponibile pubblicamente all'indirizzo https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.
PDF467December 15, 2024