ConvLLaVA: Backbones jerárquicos como codificador visual para modelos multimodales de gran escala
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
May 24, 2024
Autores: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
cs.AI
Resumen
Los Modelos Multimodales de Gran Escala (LMMs) de alta resolución enfrentan los desafíos de un exceso de tokens visuales y una complejidad visual cuadrática. Los LMMs de alta resolución actuales abordan la complejidad cuadrática, pero aún generan un exceso de tokens visuales. Sin embargo, la redundancia en los tokens visuales es el problema clave, ya que conlleva un mayor costo computacional. Para mitigar este problema, proponemos ConvLLaVA, que emplea ConvNeXt, una arquitectura jerárquica, como codificador visual del LMM en lugar del Transformer de Visión (ViT). ConvLLaVA comprime imágenes de alta resolución en características visuales ricas en información, evitando efectivamente la generación de un exceso de tokens visuales. Para mejorar las capacidades de ConvLLaVA, proponemos dos optimizaciones críticas. Dado que ConvNeXt preentrenado en baja resolución tiene un rendimiento inferior cuando se aplica directamente en alta resolución, lo actualizamos para cerrar esta brecha. Además, dado que la relación de compresión original de ConvNeXt es insuficiente para entradas de resolución mucho mayor, entrenamos una etapa sucesiva para comprimir aún más los tokens visuales, reduciendo así la redundancia. Estas optimizaciones permiten que ConvLLaVA admita entradas de resolución 1536x1536 generando solo 576 tokens visuales, capaces de manejar imágenes con relaciones de aspecto arbitrarias. Los resultados experimentales demuestran que nuestro método alcanza un rendimiento competitivo con los modelos más avanzados en benchmarks principales. La serie de modelos ConvLLaVA está disponible públicamente en https://github.com/alibaba/conv-llava.
English
High-resolution Large Multimodal Models (LMMs) encounter the challenges of
excessive visual tokens and quadratic visual complexity. Current
high-resolution LMMs address the quadratic complexity while still generating
excessive visual tokens. However, the redundancy in visual tokens is the key
problem as it leads to more substantial compute. To mitigate this issue, we
propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the
visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses
high-resolution images into information-rich visual features, effectively
preventing the generation of excessive visual tokens. To enhance the
capabilities of ConvLLaVA, we propose two critical optimizations. Since the
low-resolution pretrained ConvNeXt underperforms when directly applied on high
resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original
compression ratio is inadequate for much higher resolution inputs, we train a
successive stage to further compress the visual tokens, thereby reducing
redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536
resolution generating only 576 visual tokens, capable of handling images of
arbitrary aspect ratios. Experimental results demonstrate that our method
achieves competitive performance with state-of-the-art models on mainstream
benchmarks. The ConvLLaVA model series are publicly available at
https://github.com/alibaba/conv-llava.Summary
AI-Generated Summary