OpenVision 3:理解と生成を統合したビジュアルエンコーダファミリー
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
January 21, 2026
著者: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI
要旨
本論文は、画像理解と画像生成の両方に対応可能な単一の統合視覚表現を学習する先進的ビジョンエンコーダファミリー「OpenVision 3」を提案する。中核となるアーキテクチャは簡潔である。VAEで圧縮された画像潜在変数をViTエンコーダに入力し、その出力が2つの相補的な役割を果たすように学習する。第一に、エンコーダ出力をViT-VAEデコーダに渡して元画像を再構成し、表現が生成的な構造を捉えることを促す。第二に、同じ表現に対比学習と画像キャプション生成の目的関数を適用し、意味的特徴を強化する。再構成と意味情報に基づく信号を共有潜在空間で共同最適化することで、エンコーダは両領域で相乗効果を持ち、汎化性の高い表現を学習する。本統合設計の有効性は、エンコーダを凍結した状態での広範な下流タスク評価により検証する。マルチモーダル理解では、エンコーダをLLaVA-1.5フレームワークに組み込むと、標準的なCLIPビジョンエンコーダと同等の性能を示した(例:SeedBenchで62.4対62.2、POPEで83.7対82.9)。生成タスクではRAEフレームワーク下で評価し、標準のCLIPベースエンコーダを大幅に上回った(例:ImageNetにおけるgFIDが1.89対2.54)。本研究成果が統合モデリングに関する今後の研究を促進することを期待する。
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.