ConvLLaVA: Иерархические основы в качестве визуального кодера для крупных мультимодальных моделей
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
Авторы: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
Аннотация
Модели с многомодальными данными большого разрешения (LMM) сталкиваются с проблемами избыточных визуальных токенов и квадратичной визуальной сложности. Существующие модели LMM большого разрешения решают проблему квадратичной сложности, но по-прежнему генерируют избыточные визуальные токены. Однако избыточность визуальных токенов является ключевой проблемой, поскольку она приводит к более значительным вычислениям. Для устранения этой проблемы мы предлагаем ConvLLaVA, который использует ConvNeXt, иерархическую основу, в качестве визуального кодера LMM для замены Vision Transformer (ViT). ConvLLaVA сжимает изображения большого разрешения в информационно насыщенные визуальные признаки, эффективно предотвращая генерацию избыточных визуальных токенов. Для улучшения возможностей ConvLLaVA мы предлагаем две ключевые оптимизации. Поскольку предварительно обученный ConvNeXt низкого разрешения показывает недостаточные результаты при прямом применении к изображениям высокого разрешения, мы обновляем его для устранения этой проблемы. Более того, поскольку исходное соотношение сжатия ConvNeXt недостаточно для входов гораздо более высокого разрешения, мы обучаем последующий этап для дальнейшего сжатия визуальных токенов, тем самым уменьшая избыточность. Эти оптимизации позволяют ConvLLaVA поддерживать входы разрешением 1536x1536, генерируя всего 576 визуальных токенов, способных обрабатывать изображения произвольных пропорций. Экспериментальные результаты показывают, что наш метод достигает конкурентоспособной производительности по сравнению с современными моделями на основных бенчмарках. Серия моделей ConvLLaVA доступна по адресу https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.