ConvLLaVA: Backbones Hierárquicos como Codificador Visual para Modelos Multimodais de Grande Escala
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
Autores: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
Resumo
Modelos Multimodais de Grande Escala de Alta Resolução (LMMs) enfrentam os desafios de tokens visuais excessivos e complexidade visual quadrática. Os LMMs de alta resolução atuais abordam a complexidade quadrática, mas ainda geram tokens visuais excessivos. No entanto, a redundância nos tokens visuais é o principal problema, pois leva a um custo computacional mais substancial. Para mitigar essa questão, propomos o ConvLLaVA, que emprega o ConvNeXt, uma arquitetura hierárquica, como o codificador visual do LMM para substituir o Vision Transformer (ViT). O ConvLLaVA comprime imagens de alta resolução em características visuais ricas em informação, prevenindo efetivamente a geração de tokens visuais excessivos. Para aprimorar as capacidades do ConvLLaVA, propomos duas otimizações críticas. Como o ConvNeXt pré-treinado em baixa resolução tem desempenho inferior quando aplicado diretamente em alta resolução, o atualizamos para reduzir essa lacuna. Além disso, como a taxa de compressão original do ConvNeXt é inadequada para entradas de resolução muito mais alta, treinamos um estágio sucessivo para comprimir ainda mais os tokens visuais, reduzindo assim a redundância. Essas otimizações permitem que o ConvLLaVA suporte entradas de resolução 1536x1536, gerando apenas 576 tokens visuais, capazes de lidar com imagens de proporções arbitrárias. Resultados experimentais demonstram que nosso método alcança desempenho competitivo com os modelos state-of-the-art em benchmarks principais. A série de modelos ConvLLaVA está disponível publicamente em https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.