ConvLLaVA: Hiërarchische Backbones als Visuele Encoder voor Grote Multimodale Modellen
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
Auteurs: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
Samenvatting
High-resolution Large Multimodal Models (LMMs) worden geconfronteerd met de uitdagingen van overmatige visuele tokens en kwadratische visuele complexiteit. Huidige high-resolution LMMs pakken de kwadratische complexiteit aan, maar genereren nog steeds te veel visuele tokens. De redundantie in visuele tokens is echter het kernprobleem, omdat dit leidt tot aanzienlijk meer rekenkracht. Om dit probleem te verlichten, stellen we ConvLLaVA voor, dat ConvNeXt, een hiërarchische backbone, gebruikt als de visuele encoder van LMM ter vervanging van Vision Transformer (ViT). ConvLLaVA comprimeert high-resolution afbeeldingen tot informatie-rijke visuele kenmerken, waardoor effectief wordt voorkomen dat er te veel visuele tokens worden gegenereerd. Om de mogelijkheden van ConvLLaVA te verbeteren, stellen we twee cruciale optimalisaties voor. Omdat de low-resolution vooraf getrainde ConvNeXt onderpresteert wanneer deze direct op hoge resolutie wordt toegepast, werken we deze bij om de kloof te overbruggen. Bovendien is de oorspronkelijke compressieverhouding van ConvNeXt ontoereikend voor veel hogere resolutie-inputs, dus trainen we een opeenvolgende fase om de visuele tokens verder te comprimeren, waardoor redundantie wordt verminderd. Deze optimalisaties stellen ConvLLaVA in staat om inputs van 1536x1536 resolutie te ondersteunen met slechts 576 visuele tokens, waardoor het afbeeldingen met willekeurige beeldverhoudingen kan verwerken. Experimentele resultaten tonen aan dat onze methode concurrerende prestaties bereikt met state-of-the-art modellen op mainstream benchmarks. De ConvLLaVA modelreeks is publiekelijk beschikbaar op https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.