OpenVision: Una Familia Totalmente Abierta y Rentable de Codificadores Visuales Avanzados para el Aprendizaje Multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Autores: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Resumen
El CLIP de OpenAI, lanzado a principios de 2021, ha sido durante mucho tiempo la opción preferida de codificador visual para construir modelos fundamentales multimodales. Aunque alternativas recientes como SigLIP han comenzado a desafiar este statu quo, hasta donde sabemos, ninguna es completamente abierta: sus datos de entrenamiento siguen siendo propietarios y/o sus recetas de entrenamiento no se han publicado. Este artículo llena este vacío con OpenVision, una familia de codificadores visuales completamente abierta y rentable que igualan o superan el rendimiento del CLIP de OpenAI cuando se integran en marcos multimodales como LLaVA. OpenVision se basa en trabajos existentes —por ejemplo, CLIPS para el marco de entrenamiento y Recap-DataComp-1B para los datos de entrenamiento— mientras revela múltiples ideas clave para mejorar la calidad del codificador y muestra beneficios prácticos en el avance de modelos multimodales. Al lanzar codificadores visuales que abarcan desde 5.9M hasta 632.1M de parámetros, OpenVision ofrece a los profesionales un equilibrio flexible entre capacidad y eficiencia en la construcción de modelos multimodales: los modelos más grandes ofrecen un rendimiento multimodal mejorado, mientras que las versiones más pequeñas permiten implementaciones multimodales ligeras y listas para el edge.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.Summary
AI-Generated Summary