OpenVision: Eine vollständig offene, kosteneffiziente Familie fortschrittlicher Vision-Encoder für multimodales Lernen
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Autoren: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Zusammenfassung
OpenAIs CLIP, das Anfang 2021 veröffentlicht wurde, war lange die bevorzugte Wahl als Vision-Encoder für den Aufbau multimodaler Basismodelle. Obwohl neuere Alternativen wie SigLIP begonnen haben, diesen Status quo in Frage zu stellen, sind unserer Kenntnis nach keine vollständig offen: Ihre Trainingsdaten bleiben proprietär und/oder ihre Trainingsmethoden werden nicht veröffentlicht. Diese Arbeit schließt diese Lücke mit OpenVision, einer vollständig offenen, kosteneffizienten Familie von Vision-Encodern, die die Leistung von OpenAIs CLIP bei der Integration in multimodale Frameworks wie LLaVA erreichen oder übertreffen. OpenVision baut auf bestehenden Arbeiten auf – z. B. CLIPS für das Trainingsframework und Recap-DataComp-1B für die Trainingsdaten – und offenbart dabei mehrere wichtige Erkenntnisse zur Verbesserung der Encoder-Qualität und zeigt praktische Vorteile bei der Weiterentwicklung multimodaler Modelle. Durch die Veröffentlichung von Vision-Encodern mit Parametern von 5,9M bis 632,1M bietet OpenVision Praktikern eine flexible Abwägung zwischen Kapazität und Effizienz beim Aufbau multimodaler Modelle: Größere Modelle liefern eine verbesserte multimodale Leistung, während kleinere Versionen leichte, edge-fähige multimodale Implementierungen ermöglichen.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.Summary
AI-Generated Summary