OpenVision 3: Una Famiglia di Encoder Visivi Unificati per Comprensione e Generazione
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
January 21, 2026
Autori: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI
Abstract
Questo articolo presenta una famiglia di encoder visivi avanzati, denominata OpenVision 3, che apprende una rappresentazione visiva unificata e singola in grado di servire sia la comprensione che la generazione di immagini. La nostra architettura di base è semplice: alimentiamo i latenti immagine compressi da un VAE a un encoder ViT e addestriamo il suo output per supportare due ruoli complementari. In primo luogo, l'output dell'encoder viene passato al decoder ViT-VAE per ricostruire l'immagine originale, incoraggiando la rappresentazione a catturare la struttura generativa. In secondo luogo, la stessa rappresentazione viene ottimizzata con obiettivi di contrastive learning e image-captioning, rafforzando le caratteristiche semantiche. Ottimizzando congiuntamente i segnali guidati dalla ricostruzione e dalla semantica in uno spazio latente condiviso, l'encoder apprende rappresentazioni che sinergizzano e generalizzano bene in entrambi i regimi. Convalidiamo questo design unificato attraverso valutazioni estensive a valle con l'encoder congelato. Per la comprensione multimodale, inseriamo l'encoder nel framework LLaVA-1.5: esso performa in modo comparabile a un encoder visivo CLIP standard (ad esempio, 62.4 vs 62.2 su SeedBench e 83.7 vs 82.9 su POPE). Per la generazione, lo testiamo nel framework RAE: il nostro supera sostanzialmente l'encoder standard basato su CLIP (ad esempio, gFID: 1.89 vs 2.54 su ImageNet). Speriamo che questo lavoro possa stimolare future ricerche sulla modellizzazione unificata.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.