ChatPaper.aiChatPaper

OpenVision 2: Eine Familie von generativ vortrainierten visuellen Encodern für multimodales Lernen

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

September 1, 2025
papers.authors: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie
cs.AI

papers.abstract

Dieses Papier bietet eine Vereinfachung der Architektur und des Loss-Designs von OpenVision, um dessen Trainings effizienz zu steigern. In Anlehnung an frühere Vision-Language-Pretraining-Arbeiten wie CapPa und AIMv2 sowie moderne multimodale Designs wie LLaVA sind unsere Änderungen unkompliziert: Wir entfernen den Text-Encoder (und damit den kontrastiven Loss) und behalten nur den Captioning-Loss als rein generatives Trainingssignal bei. Wir nennen diese neue Version OpenVision 2. Die ersten Ergebnisse sind vielversprechend: Trotz dieser Vereinfachung erreicht OpenVision 2 wettbewerbsfähige Leistungen im Vergleich zum ursprünglichen Modell auf einer breiten Palette von multimodalen Benchmarks, während gleichzeitig sowohl die Trainingszeit als auch der Speicherverbrauch erheblich reduziert werden. Beispielsweise reduziert es mit ViT-L/14 die Trainingszeit um etwa das 1,5-fache (von 83h auf 57h) und den Speicherverbrauch um etwa das 1,8-fache (von 24,5 GB auf 13,8 GB, was gleichzeitig die maximale Batch-Größe von 2k auf 8k erhöht). Diese überlegene Trainings effizienz ermöglicht es uns auch, weit über den größten in OpenVision verwendeten Vision-Encoder hinauszugehen und mehr als 1 Milliarde Parameter zu erreichen. Wir sind fest davon überzeugt, dass dieses leichte, rein generative Paradigma für die zukünftige Entwicklung von Vision-Encodern in multimodalen Foundation-Modellen überzeugend ist.
English
This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
PDF231September 3, 2025