Efficacité transférable et fondée sur des principes pour la segmentation à vocabulaire ouvert
Transferable and Principled Efficiency for Open-Vocabulary Segmentation
April 11, 2024
Auteurs: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
cs.AI
Résumé
Le récent succès des modèles de base pré-entraînés en vision et langage a rendu possible la segmentation à vocabulaire ouvert (Open-Vocabulary Segmentation, OVS). Malgré des performances prometteuses, cette approche introduit des surcharges computationnelles importantes dues à deux défis majeurs : 1) la taille importante des modèles de base ; 2) les coûts élevés lors du fine-tuning. Ces défis limitent l'applicabilité et l'accessibilité de cette stratégie OVS dans des scénarios réels. Bien que les méthodes traditionnelles telles que la compression de modèles et le fine-tuning efficace puissent répondre à ces défis, elles reposent souvent sur des heuristiques. Cela signifie que leurs solutions ne peuvent pas être facilement transférées et nécessitent un ré-entraînement pour différents modèles, ce qui engendre des coûts supplémentaires. Dans le contexte d'une OVS efficace, nous visons à atteindre des performances comparables, voire supérieures, aux travaux précédents basés sur de grands modèles de base en vision et langage, en utilisant des modèles plus petits qui réduisent les coûts d'entraînement. La stratégie centrale consiste à rendre notre efficacité fondée sur des principes, permettant ainsi un transfert fluide d'un cadre OVS à un autre sans nécessiter de personnalisation supplémentaire. Des expériences approfondies sur divers benchmarks OVS démontrent notre meilleur compromis entre précision de segmentation et coûts computationnels par rapport aux travaux précédents. Notre code est disponible sur https://github.com/Xujxyang/OpenTrans.
English
Recent success of pre-trained foundation vision-language models makes
Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance,
this approach introduces heavy computational overheads for two challenges: 1)
large model sizes of the backbone; 2) expensive costs during the fine-tuning.
These challenges hinder this OVS strategy from being widely applicable and
affordable in real-world scenarios. Although traditional methods such as model
compression and efficient fine-tuning can address these challenges, they often
rely on heuristics. This means that their solutions cannot be easily
transferred and necessitate re-training on different models, which comes at a
cost. In the context of efficient OVS, we target achieving performance that is
comparable to or even better than prior OVS works based on large
vision-language foundation models, by utilizing smaller models that incur lower
training costs. The core strategy is to make our efficiency principled and thus
seamlessly transferable from one OVS framework to others without further
customization. Comprehensive experiments on diverse OVS benchmarks demonstrate
our superior trade-off between segmentation accuracy and computation costs over
previous works. Our code is available on https://github.com/Xujxyang/OpenTransSummary
AI-Generated Summary