ViQ: Согласованные с текстом визуальные квантованные представления при любом разрешении

Аннотация

Единое представление для текста и изображений является естественной целью, поскольку оно позволяет упростить мультимодальное моделирование и повысить эффективность обучения. Однако представление изображений в виде дискретных сигналов, аналогично тексту, неизбежно приводит к существенной потере информации. Существующие работы с трудом находят баланс между низкоуровневыми деталями и высокоуровневой семантикой в дискретных представлениях: представления, ориентированные на реконструкцию, часто лишены семантической информации, тогда как семантически более сильные признаки обычно страдают от серьезной потери деталей. Мы представляем ViQ — фреймворк визуальных квантованных представлений, разработанный для балансировки семантики и деталей в дискретных представлениях при поддержке входных данных в их исходном разрешении, что позволяет ему служить единым и универсальным дискретным представлением для произвольных визуальных входных данных. Наш подход структурирует обучение квантованию в два этапа: предварительное обучение с выравниванием по тексту и дискретизация признаков. Благодаря предварительному обучению с выравниванием по тексту мы обогащаем семантический контроль визуального кодера с помощью предварительно обученной языковой модели и позволяем ему обрабатывать визуальные входные данные в исходном разрешении. В процессе дискретизации мы предлагаем стратегию обучения проксимальных представлений для постепенного сжатия пространства признаков, а также позиционно-зависимый механизм поканального квантования, который обеспечивает гибкую обработку произвольных разрешений. Обширные эксперименты на мультимодальных задачах показывают, что ViQ достигает конкурентоспособной производительности по сравнению с современными мультимодальными визуальными кодировщиками, использующими непрерывные и высокоразмерные визуальные признаки, при сохранении высокой точности в низкоуровневой реконструкции. Мы также показываем, что мультимодальное обучение с визуальными квантованными представлениями значительно повышает эффективность, обеспечивая ускорение до 20%–70% для различных базовых LLM и схем обучения.

English

A unified representation for text and vision is a natural pursuit, as it enables simpler multimodal modeling and more efficient training. However, representing images as discrete signals in the same way as text inevitably introduces severe information loss. Existing work struggles to balance low-level details and high-level semantics in discrete representations: reconstruction-oriented representations often lack semantic information, whereas semantically stronger features typically suffer from severe loss of detail. We present ViQ, a Visual Quantized Representations framework, which is designed to balance semantics and details in discrete representations while supporting inputs at native resolutions, thereby enabling it to serve as a unified and general discrete representation for arbitrary visual inputs. Our approach structures quantization learning into two stages: text-aligned pre-training and feature discretization. With text-aligned pre-training, we enhance the visual encoder semantic-rich supervision from the pretrained language model and enable it to process native-resolution visual inputs. During discretization, we propose a proximal representation learning strategy to progressively compact the feature space, along with a position-aware head-wise quantization mechanism that enables flexible processing of arbitrary resolutions. Extensive experiments on multimodal tasks demonstrate that ViQ achieves competitive performance compared to state-of-the-art multimodal vision encoders with continuous and high-dimensional visual features, while maintaining high precision in low-level reconstruction. We also show that multimodal training with visual quantized representations largely improves efficiency, yielding up to 20\%-70\% acceleration with different base LLMs and training recipes.