OpenVision:マルチモーダル学習のための完全オープンでコスト効率の高い先進的ビジョンエンコーダファミリー
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
著者: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
要旨
OpenAIが2021年初頭にリリースしたCLIPは、長らくマルチモーダル基盤モデルを構築するためのビジョンエンコーダとしての定番選択肢となってきた。最近ではSigLIPなどの代替案がこの現状に挑戦し始めているものの、私たちの知る限り、完全にオープンなものは存在しない。それらのトレーニングデータはプロプライエタリであり、あるいはトレーニングレシピが公開されていない。本論文はこのギャップを埋めるOpenVisionを提案する。OpenVisionは、LLaVAのようなマルチモーダルフレームワークに統合した際に、OpenAIのCLIPの性能を匹敵または凌駕する、完全にオープンでコスト効率の良いビジョンエンコーダのファミリーである。OpenVisionは既存の研究——例えば、トレーニングフレームワークとしてのCLIPSやトレーニングデータとしてのRecap-DataComp-1B——を基盤としつつ、エンコーダの品質を向上させるための複数の重要な洞察を明らかにし、マルチモーダルモデルの進化における実用的な利点を実証している。5.9Mから632.1Mパラメータにわたるビジョンエンコーダをリリースすることで、OpenVisionはマルチモーダルモデルを構築する際に、容量と効率の間の柔軟なトレードオフを実践者に提供する。より大きなモデルはマルチモーダル性能を向上させ、より小さなバージョンは軽量でエッジ対応のマルチモーダル展開を可能にする。
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.Summary
AI-Generated Summary