ViCO: Een trainingsstrategie voor semantisch bewust dynamische hoge resolutie
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
October 14, 2025
Auteurs: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI
Samenvatting
Bestaande Multimodale Large Language Models (MLLMs) kampen met hogere
inferentiekosten als gevolg van de extra visuele tokens die worden geïntroduceerd door beeldinvoer.
In dit werk stellen we Visual Consistency Learning (ViCO) voor, een nieuwe trainingsalgoritme
dat het model in staat stelt om afbeeldingen met verschillende semantische complexiteiten
weer te geven met behulp van verschillende aantallen visuele tokens. Het centrale idee achter onze
methode is om meerdere MLP-connectoren te gebruiken, elk met een verschillende beeldcompressieverhouding,
om de visuele tokens te downsamplen op basis van de semantische complexiteit van de afbeelding.
Tijdens de training minimaliseren we de KL-divergentie tussen de reacties die zijn geconditioneerd op
verschillende MLP-connectoren. Tijdens de inferentie introduceren we een beeldrouter, genaamd Visual
Resolution Router (ViR), die automatisch de geschikte compressieverhouding selecteert voor elk beeldpatch.
In vergelijking met bestaande dynamische hoogresolutiestrategieën, die het aantal visuele tokens aanpassen
op basis van beeldresoluties, past onze methode het aantal visuele tokens dynamisch aan volgens de semantische
complexiteit. Experimentele resultaten tonen aan dat onze methode het aantal visuele tokens met tot wel 50% kan
verlagen terwijl de perceptie, redeneer- en OCR-capaciteiten van het model behouden blijven. We hopen dat dit werk
zal bijdragen aan de ontwikkeling van efficiëntere MLLMs. De code en modellen zullen worden vrijgegeven om toekomstig
onderzoek te faciliteren.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased
inference costs due to the additional vision tokens introduced by image inputs.
In this work, we propose Visual Consistency Learning (ViCO), a novel training
algorithm that enables the model to represent images of varying semantic
complexities using different numbers of vision tokens. The key idea behind our
method is to employ multiple MLP connectors, each with a different image
compression ratio, to downsample the vision tokens based on the semantic
complexity of the image. During training, we minimize the KL divergence between
the responses conditioned on different MLP connectors. At inference time, we
introduce an image router, termed Visual Resolution Router (ViR), that
automatically selects the appropriate compression rate for each image patch.
Compared with existing dynamic high-resolution strategies, which adjust the
number of visual tokens based on image resolutions, our method dynamically
adapts the number of visual tokens according to semantic complexity.
Experimental results demonstrate that our method can reduce the number of
vision tokens by up to 50% while maintaining the model's perception, reasoning,
and OCR capabilities. We hope this work will contribute to the development of
more efficient MLLMs. The code and models will be released to facilitate future
research.