ViCO: Una estrategia de entrenamiento hacia la conciencia semántica dinámica de alta resolución

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) existentes enfrentan un aumento en los costos de inferencia debido a los tokens visuales adicionales introducidos por las entradas de imágenes. En este trabajo, proponemos el Aprendizaje de Consistencia Visual (ViCO), un algoritmo de entrenamiento novedoso que permite al modelo representar imágenes de diversas complejidades semánticas utilizando diferentes cantidades de tokens visuales. La idea clave detrás de nuestro método es emplear múltiples conectores MLP, cada uno con una tasa de compresión de imagen diferente, para reducir la resolución de los tokens visuales en función de la complejidad semántica de la imagen. Durante el entrenamiento, minimizamos la divergencia KL entre las respuestas condicionadas a diferentes conectores MLP. En el momento de la inferencia, introducimos un enrutador de imágenes, denominado Enrutador de Resolución Visual (ViR), que selecciona automáticamente la tasa de compresión adecuada para cada parche de imagen. En comparación con las estrategias dinámicas de alta resolución existentes, que ajustan el número de tokens visuales en función de las resoluciones de las imágenes, nuestro método adapta dinámicamente el número de tokens visuales según la complejidad semántica. Los resultados experimentales demuestran que nuestro método puede reducir el número de tokens visuales hasta en un 50% mientras mantiene las capacidades de percepción, razonamiento y OCR del modelo. Esperamos que este trabajo contribuya al desarrollo de MLLMs más eficientes. El código y los modelos se publicarán para facilitar futuras investigaciones.

English

Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.