OpenVision: Полностью открытое, экономически эффективное семейство продвинутых визуальных кодировщиков для мультимодального обучения
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
May 7, 2025
Авторы: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie
cs.AI
Аннотация
CLIP от OpenAI, выпущенный в начале 2021 года, долгое время был основным выбором в качестве визуального энкодера для создания мультимодальных базовых моделей. Хотя недавние альтернативы, такие как SigLIP, начали бросать вызов этому статус-кво, насколько нам известно, ни одна из них не является полностью открытой: их обучающие данные остаются проприетарными, и/или их методики обучения не опубликованы. Данная статья заполняет этот пробел, представляя OpenVision — полностью открытое семейство визуальных энкодеров, которое по эффективности и стоимости соответствует или превосходит CLIP от OpenAI при интеграции в мультимодальные фреймворки, такие как LLaVA. OpenVision основывается на существующих работах — например, CLIPS для фреймворка обучения и Recap-DataComp-1B для обучающих данных — при этом раскрывая несколько ключевых идей для повышения качества энкодеров и демонстрируя практические преимущества в развитии мультимодальных моделей. Предоставляя визуальные энкодеры с количеством параметров от 5,9 млн до 632,1 млн, OpenVision предлагает разработчикам гибкий выбор между мощностью и эффективностью при создании мультимодальных моделей: более крупные модели обеспечивают улучшенную мультимодальную производительность, а более компактные версии позволяют реализовать легковесные мультимодальные решения для устройств с ограниченными ресурсами.
English
OpenAI's CLIP, released in early 2021, have long been the go-to choice of
vision encoder for building multimodal foundation models. Although recent
alternatives such as SigLIP have begun to challenge this status quo, to our
knowledge none are fully open: their training data remains proprietary and/or
their training recipes are not released. This paper fills this gap with
OpenVision, a fully-open, cost-effective family of vision encoders that match
or surpass the performance of OpenAI's CLIP when integrated into multimodal
frameworks like LLaVA. OpenVision builds on existing works -- e.g., CLIPS for
training framework and Recap-DataComp-1B for training data -- while revealing
multiple key insights in enhancing encoder quality and showcasing practical
benefits in advancing multimodal models. By releasing vision encoders spanning
from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible
trade-off between capacity and efficiency in building multimodal models: larger
models deliver enhanced multimodal performance, while smaller versions enable
lightweight, edge-ready multimodal deployments.Summary
AI-Generated Summary