ChatPaper.aiChatPaper

OpenVision 3: Семейство унифицированных визуальных энкодеров для анализа и генерации

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

January 21, 2026
Авторы: Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie
cs.AI

Аннотация

В данной статье представлено семейство продвинутых визуальных кодировщиков OpenVision 3, которые изучают единое унифицированное визуальное представление, способное служить как для понимания изображений, так и для их генерации. Наша базовая архитектура проста: мы подаем латентные представления изображений, сжатые с помощью VAE, в кодировщик ViT и обучаем его выходные данные для поддержки двух взаимодополняющих ролей. Во-первых, выход кодировщика передается в декодер ViT-VAE для реконструкции исходного изображения, что побуждает представление захватывать генеративную структуру. Во-вторых, то же самое представление оптимизируется с помощью контрастивного обучения и задач создания подписей к изображениям, усиливая семантические признаки. Совместно оптимизируя сигналы, управляемые реконструкцией и семантикой, в общем латентном пространстве, кодировщик изучает представления, которые хорошо синергируют и обобщаются в обоих режимах. Мы проверяем эту унифицированную конструкцию с помощью обширных последующих оценок при замороженном кодировщике. Для мультимодального понимания мы подключаем кодировщик к框架 LLaVA-1.5: он работает сопоставимо со стандартным визуальным кодировщиком CLIP (например, 62.4 против 62.2 на SeedBench и 83.7 против 82.9 на POPE). Для генерации мы тестируем его в框架 RAE: наша модель существенно превосходит стандартный кодировщик на основе CLIP (например, gFID: 1.89 против 2.54 на ImageNet). Мы надеемся, что эта работа сможет стимулировать будущие исследования в области унифицированного моделирования.
English
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.
PDF131January 24, 2026