ChatPaper.aiChatPaper

ViCO: 의미 인식 동적 고해상도를 위한 훈련 전략

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

October 14, 2025
저자: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI

초록

기존의 다중모드 대형 언어 모델(MLLMs)은 이미지 입력으로 인해 추가된 시각 토큰으로 인해 추론 비용이 증가하는 문제를 겪고 있습니다. 본 연구에서는 다양한 의미론적 복잡도를 가진 이미지를 서로 다른 수의 시각 토큰으로 표현할 수 있도록 하는 새로운 학습 알고리즘인 시각 일관성 학습(Visual Consistency Learning, ViCO)을 제안합니다. 우리 방법의 핵심 아이디어는 이미지의 의미론적 복잡도에 따라 시각 토큰을 다운샘플링하기 위해 서로 다른 이미지 압축 비율을 가진 여러 MLP 커넥터를 사용하는 것입니다. 학습 과정에서는 서로 다른 MLP 커넥터에 조건부로 생성된 응답 간의 KL 발산을 최소화합니다. 추론 시에는 각 이미지 패치에 적절한 압축률을 자동으로 선택하는 이미지 라우터인 시각 해상도 라우터(Visual Resolution Router, ViR)를 도입합니다. 기존의 동적 고해상도 전략이 이미지 해상도에 따라 시각 토큰의 수를 조정하는 것과 달리, 우리의 방법은 의미론적 복잡도에 따라 시각 토큰의 수를 동적으로 조정합니다. 실험 결과는 우리의 방법이 모델의 인지, 추론 및 OCR 능력을 유지하면서 시각 토큰의 수를 최대 50%까지 줄일 수 있음을 보여줍니다. 이 연구가 보다 효율적인 MLLMs 개발에 기여하기를 바랍니다. 코드와 모델은 향후 연구를 촉진하기 위해 공개될 예정입니다.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.
PDF22October 15, 2025