ChatPaper.aiChatPaper

ViCO:意味認識を目指した動的高解像度化のための学習戦略

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

October 14, 2025
著者: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI

要旨

既存のマルチモーダル大規模言語モデル(MLLM)は、画像入力によって導入される追加の視覚トークンにより、推論コストが増大するという課題を抱えている。本研究では、Visual Consistency Learning(ViCO)と呼ばれる新しい訓練アルゴリズムを提案する。この手法により、モデルは異なるセマンティック複雑度を持つ画像を、異なる数の視覚トークンで表現することが可能となる。本手法の核心は、複数のMLPコネクタを採用し、それぞれ異なる画像圧縮率を用いて、画像のセマンティック複雑度に基づいて視覚トークンをダウンサンプリングすることである。訓練中には、異なるMLPコネクタに基づく応答間のKLダイバージェンスを最小化する。推論時には、Visual Resolution Router(ViR)と呼ばれる画像ルータを導入し、各画像パッチに対して適切な圧縮率を自動的に選択する。既存の動的高解像度戦略が画像解像度に基づいて視覚トークンの数を調整するのに対し、本手法はセマンティック複雑度に応じて視覚トークンの数を動的に適応させる。実験結果から、本手法はモデルの知覚、推論、OCR能力を維持しつつ、視覚トークンの数を最大50%削減できることが示された。本研究がより効率的なMLLMの開発に寄与することを期待する。今後の研究を促進するため、コードとモデルを公開する予定である。
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.
PDF22October 15, 2025