OpenVision: Uma Família Totalmente Aberta e Custo-Eficiente de Codificadores Visuais Avançados para Aprendizado Multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Autores: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Resumo
O CLIP da OpenAI, lançado no início de 2021, tem sido a escolha preferida de codificador visual para a construção de modelos fundamentais multimodais. Embora alternativas recentes, como o SigLIP, tenham começado a desafiar esse status quo, até onde sabemos, nenhuma delas é totalmente aberta: seus dados de treinamento permanecem proprietários e/ou suas receitas de treinamento não são divulgadas. Este artigo preenche essa lacuna com o OpenVision, uma família de codificadores visuais totalmente aberta e custo-eficiente que iguala ou supera o desempenho do CLIP da OpenAI quando integrada em frameworks multimodais como o LLaVA. O OpenVision se baseia em trabalhos existentes — por exemplo, o CLIPS para o framework de treinamento e o Recap-DataComp-1B para os dados de treinamento — enquanto revela várias percepções-chave para melhorar a qualidade do codificador e demonstra benefícios práticos no avanço de modelos multimodais. Ao lançar codificadores visuais que variam de 5,9M a 632,1M de parâmetros, o OpenVision oferece aos profissionais uma troca flexível entre capacidade e eficiência na construção de modelos multimodais: modelos maiores proporcionam desempenho multimodal aprimorado, enquanto versões menores permitem implantações multimodais leves e prontas para a borda.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.