ChatPaper.aiChatPaper

OpenVision 3: 이해와 생성을 모두 아우르는 통합 비전 인코더 패밀리

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

January 21, 2026
저자: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI

초록

본 논문은 이미지 이해와 이미지 생성 모두에 활용 가능한 단일 통합 시각 표현을 학습하는 고급 비전 인코더 패밀리인 OpenVision 3를 제안한다. 우리의 핵심 아키텍처는 단순하다: VAE로 압축된 이미지 잠재 변수를 ViT 인코더에 입력하고, 그 출력이 두 가지 상호 보완적인 역할을 수행하도록 학습시킨다. 첫째, 인코더 출력은 ViT-VAE 디코더로 전달되어 원본 이미지를 재구성함으로써 표현이 생성적 구조를 포착하도록 유도한다. 둘째, 동일한 표현은 대조 학습 및 이미지-캡션 학습 목적 함수를 통해 최적화되어 의미론적 특징을 강화한다. 재구성 및 의미론에 기반한 신호를 공유 잠재 공간에서 공동으로 최적화함으로써, 인코더는 두 영역 모두에서 시너지를 발휘하고 우수한 일반화 성능을 보이는 표현을 학습한다. 우리는 인코더를 고정한 상태로 광범위한 하류 과제 평가를 통해 이 통합 설계를 검증한다. 다중 모달 이해를 위해 인코더를 LLaVA-1.5 프레임워크에 적용했을 때, 표준 CLIP 비전 인코더와 유사한 성능을 보였다(예: SeedBench에서 62.4 대 62.2, POPE에서 83.7 대 82.9). 생성 과제에서는 RAE 프레임워크 하에서 테스트한 결과, 우리의 모델이 표준 CLIP 기반 인코더를 크게 능가했다(예: ImageNet에서 gFID: 1.89 대 2.54). 본 연구가 통합 모델링에 대한 향후 연구를 촉진하기를 기대한다.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.
PDF131January 24, 2026