OpenVision : Une famille entièrement ouverte et économique d'encodeurs de vision avancés pour l'apprentissage multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Auteurs: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Résumé
Le CLIP d'OpenAI, publié début 2021, a longtemps été le choix privilégié d'encodeur visuel pour la construction de modèles fondationnels multimodaux. Bien que des alternatives récentes comme SigLIP commencent à remettre en cause ce statu quo, à notre connaissance, aucune n'est entièrement ouverte : leurs données d'entraînement restent propriétaires et/ou leurs méthodes d'entraînement ne sont pas divulguées. Cet article comble cette lacune avec OpenVision, une famille d'encodeurs visuels entièrement ouverte et économique, qui égalent ou surpassent les performances du CLIP d'OpenAI lorsqu'ils sont intégrés dans des frameworks multimodaux comme LLaVA. OpenVision s'appuie sur des travaux existants — par exemple, CLIPS pour le framework d'entraînement et Recap-DataComp-1B pour les données d'entraînement — tout en révélant plusieurs insights clés pour améliorer la qualité des encodeurs et en démontrant les avantages pratiques pour faire progresser les modèles multimodaux. En publiant des encodeurs visuels allant de 5,9M à 632,1M de paramètres, OpenVision offre aux praticiens un compromis flexible entre capacité et efficacité pour construire des modèles multimodaux : les modèles plus grands offrent des performances multimodales améliorées, tandis que les versions plus petites permettent des déploiements multimodaux légers et adaptés aux environnements périphériques.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.Summary
AI-Generated Summary