ChatPaper.aiChatPaper

OpenVision: 다중모달 학습을 위한 완전 오픈형, 비용 효율적인 고급 비전 인코더 패밀리

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7, 2025
저자: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI

초록

2021년 초 출시된 OpenAI의 CLIP은 오랫동안 멀티모달 기반 모델 구축을 위한 시각 인코더의 대표적인 선택지로 자리 잡아 왔습니다. 최근 SigLIP과 같은 대안들이 이러한 현상에 도전하기 시작했지만, 우리가 아는 한 완전히 오픈된 옵션은 없습니다: 이들의 학습 데이터는 독점적이거나 학습 방법이 공개되지 않은 경우가 대부분입니다. 본 논문은 이러한 공백을 메우기 위해 OpenVision을 제안합니다. OpenVision은 LLaVA와 같은 멀티모달 프레임워크에 통합될 때 OpenAI의 CLIP 성능을 능가하거나 동등한 성능을 보이는 완전히 오픈된, 비용 효율적인 시각 인코더 패밀리입니다. OpenVision은 기존 연구들(예: 학습 프레임워크로 CLIPS, 학습 데이터로 Recap-DataComp-1B)을 기반으로 하면서도 인코더 품질 향상을 위한 여러 핵심 통찰을 제시하고 멀티모달 모델 발전의 실질적인 이점을 입증합니다. 5.9M부터 632.1M 파라미터에 이르는 다양한 규모의 시각 인코더를 공개함으로써, OpenVision은 멀티모달 모델 구축 시 용량과 효율성 간의 유연한 균형을 제공합니다: 더 큰 모델은 향상된 멀티모달 성능을 제공하는 반면, 더 작은 버전은 경량화된 엣지 환경에서의 멀티모달 배포를 가능하게 합니다.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI's CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for training framework and Recap-DataComp-1B for training data -- while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.

Summary

AI-Generated Summary

PDF121May 8, 2025