ViCO: Una estrategia de entrenamiento hacia la conciencia semántica dinámica de alta resolución
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
October 14, 2025
Autores: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) existentes enfrentan un aumento en los costos de inferencia debido a los tokens visuales adicionales introducidos por las entradas de imágenes. En este trabajo, proponemos el Aprendizaje de Consistencia Visual (ViCO), un algoritmo de entrenamiento novedoso que permite al modelo representar imágenes de diversas complejidades semánticas utilizando diferentes cantidades de tokens visuales. La idea clave detrás de nuestro método es emplear múltiples conectores MLP, cada uno con una tasa de compresión de imagen diferente, para reducir la resolución de los tokens visuales en función de la complejidad semántica de la imagen. Durante el entrenamiento, minimizamos la divergencia KL entre las respuestas condicionadas a diferentes conectores MLP. En el momento de la inferencia, introducimos un enrutador de imágenes, denominado Enrutador de Resolución Visual (ViR), que selecciona automáticamente la tasa de compresión adecuada para cada parche de imagen. En comparación con las estrategias dinámicas de alta resolución existentes, que ajustan el número de tokens visuales en función de las resoluciones de las imágenes, nuestro método adapta dinámicamente el número de tokens visuales según la complejidad semántica. Los resultados experimentales demuestran que nuestro método puede reducir el número de tokens visuales hasta en un 50% mientras mantiene las capacidades de percepción, razonamiento y OCR del modelo. Esperamos que este trabajo contribuya al desarrollo de MLLMs más eficientes. El código y los modelos se publicarán para facilitar futuras investigaciones.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased
inference costs due to the additional vision tokens introduced by image inputs.
In this work, we propose Visual Consistency Learning (ViCO), a novel training
algorithm that enables the model to represent images of varying semantic
complexities using different numbers of vision tokens. The key idea behind our
method is to employ multiple MLP connectors, each with a different image
compression ratio, to downsample the vision tokens based on the semantic
complexity of the image. During training, we minimize the KL divergence between
the responses conditioned on different MLP connectors. At inference time, we
introduce an image router, termed Visual Resolution Router (ViR), that
automatically selects the appropriate compression rate for each image patch.
Compared with existing dynamic high-resolution strategies, which adjust the
number of visual tokens based on image resolutions, our method dynamically
adapts the number of visual tokens according to semantic complexity.
Experimental results demonstrate that our method can reduce the number of
vision tokens by up to 50% while maintaining the model's perception, reasoning,
and OCR capabilities. We hope this work will contribute to the development of
more efficient MLLMs. The code and models will be released to facilitate future
research.