ChatPaper.aiChatPaper

OpenVision : Une famille entièrement ouverte et économique d'encodeurs de vision avancés pour l'apprentissage multimodal

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7, 2025
Auteurs: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI

Résumé

Le CLIP d'OpenAI, publié début 2021, a longtemps été le choix privilégié d'encodeur visuel pour la construction de modèles fondationnels multimodaux. Bien que des alternatives récentes comme SigLIP commencent à remettre en cause ce statu quo, à notre connaissance, aucune n'est entièrement ouverte : leurs données d'entraînement restent propriétaires et/ou leurs méthodes d'entraînement ne sont pas divulguées. Cet article comble cette lacune avec OpenVision, une famille d'encodeurs visuels entièrement ouverte et économique, qui égalent ou surpassent les performances du CLIP d'OpenAI lorsqu'ils sont intégrés dans des frameworks multimodaux comme LLaVA. OpenVision s'appuie sur des travaux existants — par exemple, CLIPS pour le framework d'entraînement et Recap-DataComp-1B pour les données d'entraînement — tout en révélant plusieurs insights clés pour améliorer la qualité des encodeurs et en démontrant les avantages pratiques pour faire progresser les modèles multimodaux. En publiant des encodeurs visuels allant de 5,9M à 632,1M de paramètres, OpenVision offre aux praticiens un compromis flexible entre capacité et efficacité pour construire des modèles multimodaux : les modèles plus grands offrent des performances multimodales améliorées, tandis que les versions plus petites permettent des déploiements multimodaux légers et adaptés aux environnements périphériques.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI's CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for training framework and Recap-DataComp-1B for training data -- while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.

Summary

AI-Generated Summary

PDF121May 8, 2025