OpenVision 3: Uma Família de Codificadores Visuais Unificados para Compreensão e Geração
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
January 21, 2026
Autores: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI
Resumo
Este artigo apresenta uma família de codificadores visuais avançados, denominada OpenVision 3, que aprende uma representação visual única e unificada capaz de servir tanto para a compreensão quanto para a geração de imagens. Nossa arquitetura central é simples: alimentamos *latents* de imagem comprimidos por VAE em um codificador ViT e treinamos sua saída para suportar duas funções complementares. Primeiro, a saída do codificador é passada para o decodificador ViT-VAE para reconstruir a imagem original, incentivando a representação a capturar estrutura generativa. Segundo, a mesma representação é otimizada com objetivos de aprendizado contrastivo e de legendagem de imagens, fortalecendo as características semânticas. Ao otimizar conjuntamente sinais orientados por reconstrução e semântica em um espaço latente compartilhado, o codificador aprende representações que sinergizam e generalizam bem em ambos os regimes. Validamos este projeto unificado por meio de extensas avaliações *downstream* com o codificador congelado. Para compreensão multimodal, integramos o codificador na estrutura LLaVA-1.5: ele tem um desempenho comparável a um codificador visual CLIP padrão (por exemplo, 62,4 vs 62,2 no SeedBench e 83,7 vs 82,9 no POPE). Para geração, nós o testamos na estrutura RAE: o nosso supera substancialmente o codificador baseado em CLIP padrão (por exemplo, gFID: 1,89 vs 2,54 no ImageNet). Esperamos que este trabalho possa estimular pesquisas futuras sobre modelagem unificada.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.