ChatPaper.aiChatPaper

ConvLLaVA: Hiërarchische Backbones als Visuele Encoder voor Grote Multimodale Modellen

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24, 2024
Auteurs: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI

Samenvatting

High-resolution Large Multimodal Models (LMMs) worden geconfronteerd met de uitdagingen van overmatige visuele tokens en kwadratische visuele complexiteit. Huidige high-resolution LMMs pakken de kwadratische complexiteit aan, maar genereren nog steeds te veel visuele tokens. De redundantie in visuele tokens is echter het kernprobleem, omdat dit leidt tot aanzienlijk meer rekenkracht. Om dit probleem te verlichten, stellen we ConvLLaVA voor, dat ConvNeXt, een hiërarchische backbone, gebruikt als de visuele encoder van LMM ter vervanging van Vision Transformer (ViT). ConvLLaVA comprimeert high-resolution afbeeldingen tot informatie-rijke visuele kenmerken, waardoor effectief wordt voorkomen dat er te veel visuele tokens worden gegenereerd. Om de mogelijkheden van ConvLLaVA te verbeteren, stellen we twee cruciale optimalisaties voor. Omdat de low-resolution vooraf getrainde ConvNeXt onderpresteert wanneer deze direct op hoge resolutie wordt toegepast, werken we deze bij om de kloof te overbruggen. Bovendien is de oorspronkelijke compressieverhouding van ConvNeXt ontoereikend voor veel hogere resolutie-inputs, dus trainen we een opeenvolgende fase om de visuele tokens verder te comprimeren, waardoor redundantie wordt verminderd. Deze optimalisaties stellen ConvLLaVA in staat om inputs van 1536x1536 resolutie te ondersteunen met slechts 576 visuele tokens, waardoor het afbeeldingen met willekeurige beeldverhoudingen kan verwerken. Experimentele resultaten tonen aan dat onze methode concurrerende prestaties bereikt met state-of-the-art modellen op mainstream benchmarks. De ConvLLaVA modelreeks is publiekelijk beschikbaar op https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.
PDF467December 15, 2024