ConvLLaVA: Backbones jerárquicos como codificador visual para modelos multimodales de gran escala

Resumen

Los Modelos Multimodales de Gran Escala (LMMs) de alta resolución enfrentan los desafíos de un exceso de tokens visuales y una complejidad visual cuadrática. Los LMMs de alta resolución actuales abordan la complejidad cuadrática, pero aún generan un exceso de tokens visuales. Sin embargo, la redundancia en los tokens visuales es el problema clave, ya que conlleva un mayor costo computacional. Para mitigar este problema, proponemos ConvLLaVA, que emplea ConvNeXt, una arquitectura jerárquica, como codificador visual del LMM en lugar del Transformer de Visión (ViT). ConvLLaVA comprime imágenes de alta resolución en características visuales ricas en información, evitando efectivamente la generación de un exceso de tokens visuales. Para mejorar las capacidades de ConvLLaVA, proponemos dos optimizaciones críticas. Dado que ConvNeXt preentrenado en baja resolución tiene un rendimiento inferior cuando se aplica directamente en alta resolución, lo actualizamos para cerrar esta brecha. Además, dado que la relación de compresión original de ConvNeXt es insuficiente para entradas de resolución mucho mayor, entrenamos una etapa sucesiva para comprimir aún más los tokens visuales, reduciendo así la redundancia. Estas optimizaciones permiten que ConvLLaVA admita entradas de resolución 1536x1536 generando solo 576 tokens visuales, capaces de manejar imágenes con relaciones de aspecto arbitrarias. Los resultados experimentales demuestran que nuestro método alcanza un rendimiento competitivo con los modelos más avanzados en benchmarks principales. La serie de modelos ConvLLaVA está disponible públicamente en https://github.com/alibaba/conv-llava.

English

High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.

ConvLLaVA: Backbones jerárquicos como codificador visual para modelos multimodales de gran escala

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Resumen

Support