OpenVision 3: Una Familia de Codificadores Visuales Unificados para Comprensión y Generación

Resumen

Este artículo presenta una familia de codificadores de visión avanzados, denominada OpenVision 3, que aprende una representación visual única y unificada capaz de servir tanto para la comprensión como para la generación de imágenes. Nuestra arquitectura central es simple: alimentamos latentes de imagen comprimidos mediante VAE a un codificador ViT y entrenamos su salida para que cumpla dos roles complementarios. Primero, la salida del codificador se pasa al decodificador ViT-VAE para reconstruir la imagen original, incentivando a que la representación capture la estructura generativa. Segundo, la misma representación se optimiza mediante aprendizaje contrastivo y objetivos de descripción de imágenes, fortaleciendo las características semánticas. Al optimizar conjuntamente las señales impulsadas por la reconstrucción y la semántica en un espacio latente compartido, el codificador aprende representaciones que se sinergizan y generalizan bien en ambos regímenes. Validamos este diseño unificado mediante extensas evaluaciones *downstream* con el codificador congelado. Para la comprensión multimodal, integramos el codificador en el framework LLaVA-1.5: su rendimiento es comparable al de un codificador de visión CLIP estándar (por ejemplo, 62.4 frente a 62.2 en SeedBench, y 83.7 frente a 82.9 en POPE). Para la generación, lo evaluamos bajo el framework RAE: nuestro sistema supera sustancialmente al codificador estándar basado en CLIP (por ejemplo, gFID: 1.89 frente a 2.54 en ImageNet). Esperamos que este trabajo pueda impulsar futuras investigaciones sobre modelado unificado.

English

This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.