ChatPaper.aiChatPaper

OpenVision 3: Een Familie van Geïntegreerde Visuele Encoders voor Zowel Begrip als Generatie

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

January 21, 2026
Auteurs: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI

Samenvatting

Dit artikel presenteert een familie van geavanceerde vision-encoders, genaamd OpenVision 3, die een enkele, verenigde visuele representatie leert die zowel beeldbegrip als beeldgeneratie kan dienen. Onze kernarchitectuur is eenvoudig: we voeren VAE-gecomprimeerde beeldlatenten toe aan een ViT-encoder en trainen de output om twee complementaire rollen te ondersteunen. Ten eerste wordt de encoder-output doorgegeven aan de ViT-VAE-decoder om het originele beeld te reconstrueren, wat de representatie aanmoedigt om generatieve structuur vast te leggen. Ten tweede wordt dezelfde representatie geoptimaliseerd met contrastieve leer- en beeld-bijschriftingsdoelstellingen, om semantische kenmerken te versterken. Door reconstructie- en semantiek-gestuurde signalen gezamenlijk te optimaliseren in een gedeelde latente ruimte, leert de encoder representaties die synergetisch zijn en goed generaliseren over beide regimes. We valideren dit verenigde ontwerp via uitgebreide downstream-evaluaties met de encoder bevroren. Voor multimodaal begrip pluggen we de encoder in het LLaVA-1.5-framework: deze presteert vergelijkbaar met een standaard CLIP-vision-encoder (bijv. 62,4 vs 62,2 op SeedBench, en 83,7 vs 82,9 op POPE). Voor generatie testen we deze binnen het RAE-framework: de onze overtreft de standaard CLIP-gebaseerde encoder aanzienlijk (bijv. gFID: 1,89 vs 2,54 op ImageNet). We hopen dat dit werk toekomstig onderzoek naar verenigde modellering kan stimuleren.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.
PDF203February 8, 2026