OpenVision: Una Famiglia Completamente Aperta ed Economica di Encoder Visivi Avanzati per l'Apprendimento Multimodale
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Autori: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Abstract
Il CLIP di OpenAI, rilasciato all'inizio del 2021, è stato a lungo la scelta preferita come encoder visivo per la costruzione di modelli fondazionali multimodali. Sebbene alternative recenti come SigLIP abbiano iniziato a mettere in discussione questo status quo, a nostra conoscenza nessuna di esse è completamente aperta: i loro dati di addestramento rimangono proprietari e/o le loro ricette di addestramento non sono state rilasciate. Questo articolo colma questa lacuna con OpenVision, una famiglia di encoder visivi completamente aperti e convenienti che eguagliano o superano le prestazioni del CLIP di OpenAI quando integrati in framework multimodali come LLaVA. OpenVision si basa su lavori esistenti — ad esempio, CLIPS per il framework di addestramento e Recap-DataComp-1B per i dati di addestramento — mentre rivela molteplici intuizioni chiave nel migliorare la qualità degli encoder e dimostra i benefici pratici nel far progredire i modelli multimodali. Rilasciando encoder visivi che vanno da 5,9M a 632,1M di parametri, OpenVision offre ai professionisti un compromesso flessibile tra capacità ed efficienza nella costruzione di modelli multimodali: i modelli più grandi offrono prestazioni multimodali migliorate, mentre le versioni più piccole consentono implementazioni multimodali leggere e pronte per il edge computing.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.