ChatPaper.aiChatPaper

OpenVision: Uma Família Totalmente Aberta e Custo-Eficiente de Codificadores Visuais Avançados para Aprendizado Multimodal

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7, 2025
Autores: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI

Resumo

O CLIP da OpenAI, lançado no início de 2021, tem sido a escolha preferida de codificador visual para a construção de modelos fundamentais multimodais. Embora alternativas recentes, como o SigLIP, tenham começado a desafiar esse status quo, até onde sabemos, nenhuma delas é totalmente aberta: seus dados de treinamento permanecem proprietários e/ou suas receitas de treinamento não são divulgadas. Este artigo preenche essa lacuna com o OpenVision, uma família de codificadores visuais totalmente aberta e custo-eficiente que iguala ou supera o desempenho do CLIP da OpenAI quando integrada em frameworks multimodais como o LLaVA. O OpenVision se baseia em trabalhos existentes — por exemplo, o CLIPS para o framework de treinamento e o Recap-DataComp-1B para os dados de treinamento — enquanto revela várias percepções-chave para melhorar a qualidade do codificador e demonstra benefícios práticos no avanço de modelos multimodais. Ao lançar codificadores visuais que variam de 5,9M a 632,1M de parâmetros, o OpenVision oferece aos profissionais uma troca flexível entre capacidade e eficiência na construção de modelos multimodais: modelos maiores proporcionam desempenho multimodal aprimorado, enquanto versões menores permitem implantações multimodais leves e prontas para a borda.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI's CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for training framework and Recap-DataComp-1B for training data -- while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.
PDF281May 8, 2025