ChatPaper.aiChatPaper

ViCO: Стратегия обучения для достижения семантически осознанного динамического высокого разрешения

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

October 14, 2025
Авторы: Long Cui, Weiyun Wang, Jie Shao, Zichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang
cs.AI

Аннотация

Существующие мультимодальные большие языковые модели (MLLM) сталкиваются с увеличением затрат на вывод из-за дополнительных визуальных токенов, вводимых изображениями. В данной работе мы предлагаем метод обучения визуальной согласованности (ViCO), новый алгоритм обучения, который позволяет модели представлять изображения различной семантической сложности с использованием разного количества визуальных токенов. Основная идея нашего метода заключается в использовании нескольких MLP-соединителей, каждый из которых имеет различный коэффициент сжатия изображения, для уменьшения количества визуальных токенов в зависимости от семантической сложности изображения. В процессе обучения мы минимизируем расхождение Кульбака-Лейблера между ответами, обусловленными разными MLP-соединителями. На этапе вывода мы вводим маршрутизатор изображений, называемый маршрутизатором визуального разрешения (ViR), который автоматически выбирает подходящий коэффициент сжатия для каждого фрагмента изображения. В отличие от существующих стратегий динамического высокого разрешения, которые регулируют количество визуальных токенов на основе разрешения изображений, наш метод динамически адаптирует количество визуальных токенов в зависимости от семантической сложности. Экспериментальные результаты показывают, что наш метод может сократить количество визуальных токенов до 50%, сохраняя при этом восприятие, логические способности и возможности OCR модели. Мы надеемся, что эта работа внесет вклад в разработку более эффективных MLLM. Код и модели будут опубликованы для содействия будущим исследованиям.
English
Existing Multimodal Large Language Models (MLLMs) suffer from increased inference costs due to the additional vision tokens introduced by image inputs. In this work, we propose Visual Consistency Learning (ViCO), a novel training algorithm that enables the model to represent images of varying semantic complexities using different numbers of vision tokens. The key idea behind our method is to employ multiple MLP connectors, each with a different image compression ratio, to downsample the vision tokens based on the semantic complexity of the image. During training, we minimize the KL divergence between the responses conditioned on different MLP connectors. At inference time, we introduce an image router, termed Visual Resolution Router (ViR), that automatically selects the appropriate compression rate for each image patch. Compared with existing dynamic high-resolution strategies, which adjust the number of visual tokens based on image resolutions, our method dynamically adapts the number of visual tokens according to semantic complexity. Experimental results demonstrate that our method can reduce the number of vision tokens by up to 50% while maintaining the model's perception, reasoning, and OCR capabilities. We hope this work will contribute to the development of more efficient MLLMs. The code and models will be released to facilitate future research.
PDF22October 15, 2025