ChatPaper.aiChatPaper

ViCO: Eine Trainingsstrategie für semantisch bewusste dynamische Hochauflösung

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

October 14, 2025
papers.authors: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI

papers.abstract

Bestehende Multimodale Große Sprachmodelle (MLLMs) leiden unter erhöhten Inferenzkosten aufgrund der zusätzlichen Vision-Tokens, die durch Bildinputs eingeführt werden. In dieser Arbeit schlagen wir Visual Consistency Learning (ViCO) vor, einen neuartigen Trainingsalgorithmus, der es dem Modell ermöglicht, Bilder unterschiedlicher semantischer Komplexität mit einer variierenden Anzahl von Vision-Tokens darzustellen. Die zentrale Idee unserer Methode besteht darin, mehrere MLP-Connectors mit unterschiedlichen Bildkompressionsraten zu verwenden, um die Vision-Tokens basierend auf der semantischen Komplexität des Bildes herunterzurechnen. Während des Trainings minimieren wir die KL-Divergenz zwischen den Antworten, die auf verschiedenen MLP-Connectors basieren. Zur Inferenzzeit führen wir einen Bild-Router ein, den wir als Visual Resolution Router (ViR) bezeichnen, der automatisch die geeignete Kompressionsrate für jeden Bildausschnitt auswählt. Im Vergleich zu bestehenden dynamischen Hochauflösungsstrategien, die die Anzahl der visuellen Tokens basierend auf der Bildauflösung anpassen, passt unsere Methode die Anzahl der visuellen Tokens dynamisch entsprechend der semantischen Komplexität an. Experimentelle Ergebnisse zeigen, dass unsere Methode die Anzahl der Vision-Tokens um bis zu 50 % reduzieren kann, während die Wahrnehmungs-, Schlussfolgerungs- und OCR-Fähigkeiten des Modells erhalten bleiben. Wir hoffen, dass diese Arbeit zur Entwicklung effizienterer MLLMs beitragen wird. Der Code und die Modelle werden veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.
PDF22October 15, 2025