ViQ: Tekst-afgestemde visuele gekwantiseerde representaties op elke resolutie

Samenvatting

Een uniforme representatie voor tekst en visuele waarneming is een natuurlijke ambitie, omdat het eenvoudigere multimodale modellering en efficiëntere training mogelijk maakt. Het representeren van beelden als discrete signalen op dezelfde manier als tekst leidt echter onvermijdelijk tot ernstig informatieverlies. Bestaand werk worstelt met het balanceren van details op laag niveau en semantiek op hoog niveau in discrete representaties: reconstructiegerichte representaties missen vaak semantische informatie, terwijl semantisch sterkere kenmerken doorgaans lijden onder ernstig detailverlies. Wij presenteren ViQ, een raamwerk voor visuele gekwantiseerde representaties, dat is ontworpen om semantiek en details in discrete representaties in evenwicht te brengen, terwijl het invoer op native resoluties ondersteunt, waardoor het kan dienen als een uniforme en algemene discrete representatie voor willekeurige visuele invoer. Onze benadering structureert het leren van kwantisatie in twee fasen: tekst-uitgelijnde vooropleiding en kenmerkdiscretisatie. Met tekst-uitgelijnde vooropleiding versterken we de semantisch rijke supervisie van de visuele encoder afkomstig van het voorgetrainde taalmodel en stellen we deze in staat om visuele invoer op native resolutie te verwerken. Tijdens discretisatie stellen we een proximale representatieleerstrategie voor om de kenmerkruimte geleidelijk compacter te maken, samen met een positiebewuste hoofdgewijze kwantiseringsmechanisme dat flexibele verwerking van willekeurige resoluties mogelijk maakt. Uitgebreide experimenten met multimodale taken tonen aan dat ViQ concurrerende prestaties behaalt vergeleken met state-of-the-art multimodale visuele encoders met continue en hoog-dimensionale visuele kenmerken, terwijl het een hoge precisie behoudt bij reconstructie op laag niveau. We laten ook zien dat multimodale training met visuele gekwantiseerde representaties de efficiëntie aanzienlijk verbetert, wat leidt tot een versnelling tot 20%-70% bij verschillende basis-LLM's en trainingsrecepten.

English

A unified representation for text and vision is a natural pursuit, as it enables simpler multimodal modeling and more efficient training. However, representing images as discrete signals in the same way as text inevitably introduces severe information loss. Existing work struggles to balance low-level details and high-level semantics in discrete representations: reconstruction-oriented representations often lack semantic information, whereas semantically stronger features typically suffer from severe loss of detail. We present ViQ, a Visual Quantized Representations framework, which is designed to balance semantics and details in discrete representations while supporting inputs at native resolutions, thereby enabling it to serve as a unified and general discrete representation for arbitrary visual inputs. Our approach structures quantization learning into two stages: text-aligned pre-training and feature discretization. With text-aligned pre-training, we enhance the visual encoder semantic-rich supervision from the pretrained language model and enable it to process native-resolution visual inputs. During discretization, we propose a proximal representation learning strategy to progressively compact the feature space, along with a position-aware head-wise quantization mechanism that enables flexible processing of arbitrary resolutions. Extensive experiments on multimodal tasks demonstrate that ViQ achieves competitive performance compared to state-of-the-art multimodal vision encoders with continuous and high-dimensional visual features, while maintaining high precision in low-level reconstruction. We also show that multimodal training with visual quantized representations largely improves efficiency, yielding up to 20\%-70\% acceleration with different base LLMs and training recipes.