OpenVision 3 : Une famille d'encodeurs visuels unifiés pour la compréhension et la génération
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
January 21, 2026
papers.authors: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI
papers.abstract
Ce document présente une famille d'encodeurs visuels avancés, nommée OpenVision 3, qui apprend une représentation visuelle unique et unifiée capable de servir à la fois à la compréhension et à la génération d'images. Notre architecture principale est simple : nous fournissons des latents d'images compressées par VAE à un encodeur ViT et entraînons sa sortie pour supporter deux rôles complémentaires. Premièrement, la sortie de l'encodeur est transmise au décodeur ViT-VAE pour reconstruire l'image originale, encourageant la représentation à capturer une structure générative. Deuxièmement, la même représentation est optimisée avec des objectifs d'apprentissage contrastif et de légendage d'images, renforçant les caractéristiques sémantiques. En optimisant conjointement les signaux pilotés par la reconstruction et la sémantique dans un espace latent partagé, l'encodeur apprend des représentations qui se synergie et généralisent bien dans les deux régimes. Nous validons cette conception unifiée par des évaluations en aval approfondies avec l'encodeur figé. Pour la compréhension multimodale, nous intégrons l'encodeur dans le cadre LLaVA-1.5 : il performe de manière comparable à un encodeur visuel CLIP standard (par exemple, 62,4 contre 62,2 sur SeedBench, et 83,7 contre 82,9 sur POPE). Pour la génération, nous le testons dans le cadre RAE : le nôtre surpasse substantiellement l'encodeur standard basé sur CLIP (par exemple, gFID : 1,89 contre 2,54 sur ImageNet). Nous espérons que ce travail pourra stimuler les futures recherches sur la modélisation unifiée.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.