ViCO : Une stratégie d'entraînement pour une dynamique à haute résolution sémantiquement consciente

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) existants souffrent d'une augmentation des coûts d'inférence en raison des tokens visuels supplémentaires introduits par les entrées d'images. Dans ce travail, nous proposons l'apprentissage de la cohérence visuelle (ViCO), un nouvel algorithme d'entraînement qui permet au modèle de représenter des images de complexités sémantiques variées en utilisant un nombre différent de tokens visuels. L'idée clé de notre méthode est d'employer plusieurs connecteurs MLP, chacun avec un taux de compression d'image différent, pour sous-échantillonner les tokens visuels en fonction de la complexité sémantique de l'image. Pendant l'entraînement, nous minimisons la divergence de Kullback-Leibler (KL) entre les réponses conditionnées sur différents connecteurs MLP. Au moment de l'inférence, nous introduisons un routeur d'image, appelé Visual Resolution Router (ViR), qui sélectionne automatiquement le taux de compression approprié pour chaque patch d'image. Par rapport aux stratégies dynamiques de haute résolution existantes, qui ajustent le nombre de tokens visuels en fonction des résolutions d'image, notre méthode adapte dynamiquement le nombre de tokens visuels selon la complexité sémantique. Les résultats expérimentaux démontrent que notre méthode peut réduire le nombre de tokens visuels jusqu'à 50 % tout en maintenant les capacités de perception, de raisonnement et de reconnaissance optique de caractères (OCR) du modèle. Nous espérons que ce travail contribuera au développement de MLLMs plus efficaces. Le code et les modèles seront publiés pour faciliter les recherches futures.

English

Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.

ViCO : Une stratégie d'entraînement pour une dynamique à haute résolution sémantiquement consciente

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

papers.abstract

Support