ViCO : Une stratégie d'entraînement pour une dynamique à haute résolution sémantiquement consciente
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
October 14, 2025
papers.authors: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) existants souffrent d'une augmentation des coûts d'inférence en raison des tokens visuels supplémentaires introduits par les entrées d'images. Dans ce travail, nous proposons l'apprentissage de la cohérence visuelle (ViCO), un nouvel algorithme d'entraînement qui permet au modèle de représenter des images de complexités sémantiques variées en utilisant un nombre différent de tokens visuels. L'idée clé de notre méthode est d'employer plusieurs connecteurs MLP, chacun avec un taux de compression d'image différent, pour sous-échantillonner les tokens visuels en fonction de la complexité sémantique de l'image. Pendant l'entraînement, nous minimisons la divergence de Kullback-Leibler (KL) entre les réponses conditionnées sur différents connecteurs MLP. Au moment de l'inférence, nous introduisons un routeur d'image, appelé Visual Resolution Router (ViR), qui sélectionne automatiquement le taux de compression approprié pour chaque patch d'image. Par rapport aux stratégies dynamiques de haute résolution existantes, qui ajustent le nombre de tokens visuels en fonction des résolutions d'image, notre méthode adapte dynamiquement le nombre de tokens visuels selon la complexité sémantique. Les résultats expérimentaux démontrent que notre méthode peut réduire le nombre de tokens visuels jusqu'à 50 % tout en maintenant les capacités de perception, de raisonnement et de reconnaissance optique de caractères (OCR) du modèle. Nous espérons que ce travail contribuera au développement de MLLMs plus efficaces. Le code et les modèles seront publiés pour faciliter les recherches futures.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased
inference costs due to the additional vision tokens introduced by image inputs.
In this work, we propose Visual Consistency Learning (ViCO), a novel training
algorithm that enables the model to represent images of varying semantic
complexities using different numbers of vision tokens. The key idea behind our
method is to employ multiple MLP connectors, each with a different image
compression ratio, to downsample the vision tokens based on the semantic
complexity of the image. During training, we minimize the KL divergence between
the responses conditioned on different MLP connectors. At inference time, we
introduce an image router, termed Visual Resolution Router (ViR), that
automatically selects the appropriate compression rate for each image patch.
Compared with existing dynamic high-resolution strategies, which adjust the
number of visual tokens based on image resolutions, our method dynamically
adapts the number of visual tokens according to semantic complexity.
Experimental results demonstrate that our method can reduce the number of
vision tokens by up to 50% while maintaining the model's perception, reasoning,
and OCR capabilities. We hope this work will contribute to the development of
more efficient MLLMs. The code and models will be released to facilitate future
research.