ConvLLaVA: 대규모 멀티모달 모델을 위한 시각적 인코더로서의 계층적 백본 구조
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
저자: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
초록
고해상도 대형 멀티모달 모델(LMMs)은 과도한 시각 토큰과 이차원적 시각 복잡성이라는 도전에 직면하고 있습니다. 현재의 고해상도 LMMs는 이차원적 복잡성을 해결하면서도 여전히 과도한 시각 토큰을 생성합니다. 그러나 시각 토큰의 중복성이 주요 문제로, 이는 더 많은 계산을 필요로 합니다. 이 문제를 완화하기 위해, 우리는 ConvNeXt라는 계층적 백본을 LMM의 시각 인코더로 사용하여 Vision Transformer(ViT)를 대체하는 ConvLLaVA를 제안합니다. ConvLLaVA는 고해상도 이미지를 정보가 풍부한 시각 특징으로 압축하여 과도한 시각 토큰의 생성을 효과적으로 방지합니다. ConvLLaVA의 능력을 향상시키기 위해, 우리는 두 가지 중요한 최적화를 제안합니다. 저해상도로 사전 학습된 ConvNeXt는 고해상도에서 직접 적용할 때 성능이 떨어지므로, 이를 업데이트하여 격차를 줄입니다. 또한, ConvNeXt의 원래 압축 비율은 훨씬 더 높은 해상도 입력에 대해 부적합하므로, 연속적인 단계를 학습하여 시각 토큰을 더 압축함으로써 중복성을 줄입니다. 이러한 최적화를 통해 ConvLLaVA는 1536x1536 해상도의 입력을 지원하며 단 576개의 시각 토큰만 생성하며, 임의의 종횡비를 가진 이미지를 처리할 수 있습니다. 실험 결과는 우리의 방법이 주류 벤치마크에서 최신 모델과 경쟁력 있는 성능을 달성함을 보여줍니다. ConvLLaVA 모델 시리즈는 https://github.com/alibaba/conv-llava에서 공개적으로 이용 가능합니다.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.Summary
AI-Generated Summary