ChatPaper.aiChatPaper

OpenVision: Een volledig open, kosteneffectieve familie van geavanceerde visuele encoders voor multimodaal leren

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7, 2025
Auteurs: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI

Samenvatting

OpenAI's CLIP, dat begin 2021 werd uitgebracht, is lange tijd de eerste keuze geweest als visuele encoder voor het bouwen van multimodale foundation-modellen. Hoewel recente alternatieven zoals SigLIP deze status quo beginnen uit te dagen, zijn er naar onze kennis nog geen volledig open alternatieven: hun trainingsdata blijft propriëtair en/of hun trainingsmethoden zijn niet vrijgegeven. Dit artikel vult deze leemte met OpenVision, een volledig open, kosteneffectieve familie van visuele encoders die de prestaties van OpenAI's CLIP evenaren of overtreffen wanneer ze worden geïntegreerd in multimodale frameworks zoals LLaVA. OpenVision bouwt voort op bestaande werken — bijvoorbeeld CLIPS voor het trainingsframework en Recap-DataComp-1B voor de trainingsdata — terwijl het meerdere cruciale inzichten onthult voor het verbeteren van de encoder-kwaliteit en praktische voordelen laat zien in de vooruitgang van multimodale modellen. Door visuele encoders vrij te geven die variëren van 5,9M tot 632,1M parameters, biedt OpenVision ontwikkelaars een flexibele afweging tussen capaciteit en efficiëntie bij het bouwen van multimodale modellen: grotere modellen leveren verbeterde multimodale prestaties, terwijl kleinere versies lichtgewicht, edge-ready multimodale implementaties mogelijk maken.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI's CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for training framework and Recap-DataComp-1B for training data -- while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.
PDF261May 8, 2025