Переносимая и принципиальная эффективность для сегментации с открытым словарем.
Transferable and Principled Efficiency for Open-Vocabulary Segmentation
April 11, 2024
Авторы: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
cs.AI
Аннотация
Недавний успех предварительно обученных моделей основы видео-языковых моделей делает возможным открыто-словарное сегментирование (OVS). Несмотря на многообещающую производительность, этот подход вводит значительные вычислительные нагрузки из-за двух проблем: 1) большие размеры модели основы; 2) дорогостоящие затраты во время донастройки. Эти проблемы мешают широкому применению и доступности этой стратегии OVS в реальных сценариях. Хотя традиционные методы, такие как сжатие модели и эффективная донастройка, могут решить эти проблемы, они часто полагаются на эвристику. Это означает, что их решения не могут быть легко перенесены и требуют повторного обучения на различных моделях, что связано с затратами. В контексте эффективного OVS мы стремимся достичь производительности, сравнимой или даже лучше, чем у предыдущих работ по OVS на основе крупных видео-языковых моделей основы, используя более компактные модели, которые обходятся дешевле в обучении. Основная стратегия заключается в том, чтобы сделать нашу эффективность обоснованной и, таким образом, легко переносимой из одной структуры OVS в другие без дополнительной настройки. Обширные эксперименты на разнообразных бенчмарках OVS демонстрируют наш превосходный баланс между точностью сегментации и вычислительными затратами по сравнению с предыдущими работами. Наш код доступен на https://github.com/Xujxyang/OpenTrans
English
Recent success of pre-trained foundation vision-language models makes
Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance,
this approach introduces heavy computational overheads for two challenges: 1)
large model sizes of the backbone; 2) expensive costs during the fine-tuning.
These challenges hinder this OVS strategy from being widely applicable and
affordable in real-world scenarios. Although traditional methods such as model
compression and efficient fine-tuning can address these challenges, they often
rely on heuristics. This means that their solutions cannot be easily
transferred and necessitate re-training on different models, which comes at a
cost. In the context of efficient OVS, we target achieving performance that is
comparable to or even better than prior OVS works based on large
vision-language foundation models, by utilizing smaller models that incur lower
training costs. The core strategy is to make our efficiency principled and thus
seamlessly transferable from one OVS framework to others without further
customization. Comprehensive experiments on diverse OVS benchmarks demonstrate
our superior trade-off between segmentation accuracy and computation costs over
previous works. Our code is available on https://github.com/Xujxyang/OpenTransSummary
AI-Generated Summary