OpenVision 3: Eine Familie vereinheitlichter visueller Encoder für Verstehen und Generierung
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
January 21, 2026
papers.authors: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI
papers.abstract
Dieses Paper stellt eine Familie fortschrittlicher Vision-Encoder vor, genannt OpenVision 3, die eine einzige, vereinheitlichte visuelle Repräsentation erlernt, die sowohl Bildverständnis als auch Bildgenerierung unterstützen kann. Unsere Kernarchitektur ist einfach: Wir führen VAE-komprimierte Bildlatenten einem ViT-Encoder zu und trainieren dessen Ausgabe für zwei komplementäre Rollen. Erstens wird die Encoder-Ausgabe an den ViT-VAE-Decoder weitergeleitet, um das Originalbild zu rekonstruieren, was die Repräsentation dazu anhält, generative Strukturen zu erfassen. Zweitens wird dieselbe Repräsentation mittels Kontrastivlernen und Bild-Beschriftungs-Zielen optimiert, um semantische Merkmale zu stärken. Durch gemeinsame Optimierung von rekonstruktions- und semantikgesteuerten Signalen in einem gemeinsamen latenten Raum erlernt der Encoder Repräsentationen, die synergistisch wirken und sich gut über beide Regime verallgemeinern. Wir validieren dieses vereinheitlichte Design durch umfangreiche Downstream-Evaluierungen mit eingefrorenem Encoder. Für multimodales Verständnis integrieren wir den Encoder in das LLaVA-1.5-Framework: Er schneidet vergleichbar mit einem standardmäßigen CLIP-Vision-Encoder ab (z.B. 62,4 vs. 62,2 auf SeedBench und 83,7 vs. 82,9 auf POPE). Für die Generierung testen wir ihn im RAE-Framework: Unserer übertrifft den standardmäßigen CLIP-basierten Encoder deutlich (z.B. gFID: 1,89 vs. 2,54 auf ImageNet). Wir hoffen, dass diese Arbeit zukünftige Forschung zur vereinheitlichten Modellierung anregen kann.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.