ChatPaper.aiChatPaper

OpenVision 2: Una famiglia di encoder visivi generativi pre-addestrati per l'apprendimento multimodale

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

September 1, 2025
Autori: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie
cs.AI

Abstract

Questo articolo presenta una semplificazione dell'architettura e del design della funzione di perdita di OpenVision per migliorarne l'efficienza nell'addestramento. Seguendo i precedenti lavori di pre-addestramento visione-linguaggio come CapPa e AIMv2, nonché i moderni design multimodali come LLaVA, le nostre modifiche sono dirette: rimuoviamo l'encoder di testo (e quindi la perdita contrastiva), mantenendo solo la perdita di generazione di didascalie come segnale di addestramento puramente generativo. Abbiamo denominato questa nuova versione OpenVision 2. I risultati iniziali sono promettenti: nonostante questa semplificazione, OpenVision 2 eguaglia in modo competitivo le prestazioni del modello originale su un ampio set di benchmark multimodali, riducendo sostanzialmente sia il tempo di addestramento che il consumo di memoria. Ad esempio, con ViT-L/14, riduce il tempo di addestramento di circa 1,5x (da 83h a 57h) e l'uso della memoria di circa 1,8x (da 24,5GB a 13,8GB, permettendo equivalentemente di aumentare la dimensione massima del batch da 2k a 8k). Questa superiore efficienza nell'addestramento ci consente anche di scalare ben oltre il più grande encoder visivo utilizzato in OpenVision, raggiungendo più di 1 miliardo di parametri. Crediamo fermamente che questo paradigma leggero e puramente generativo sia convincente per lo sviluppo futuro di encoder visivi nei modelli di fondazione multimodali.
English
This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
PDF332September 3, 2025