ChatPaper.aiChatPaper

Efficacité transférable et fondée sur des principes pour la segmentation à vocabulaire ouvert

Transferable and Principled Efficiency for Open-Vocabulary Segmentation

April 11, 2024
Auteurs: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
cs.AI

Résumé

Le récent succès des modèles de base pré-entraînés en vision et langage a rendu possible la segmentation à vocabulaire ouvert (Open-Vocabulary Segmentation, OVS). Malgré des performances prometteuses, cette approche introduit des surcharges computationnelles importantes dues à deux défis majeurs : 1) la taille importante des modèles de base ; 2) les coûts élevés lors du fine-tuning. Ces défis limitent l'applicabilité et l'accessibilité de cette stratégie OVS dans des scénarios réels. Bien que les méthodes traditionnelles telles que la compression de modèles et le fine-tuning efficace puissent répondre à ces défis, elles reposent souvent sur des heuristiques. Cela signifie que leurs solutions ne peuvent pas être facilement transférées et nécessitent un ré-entraînement pour différents modèles, ce qui engendre des coûts supplémentaires. Dans le contexte d'une OVS efficace, nous visons à atteindre des performances comparables, voire supérieures, aux travaux précédents basés sur de grands modèles de base en vision et langage, en utilisant des modèles plus petits qui réduisent les coûts d'entraînement. La stratégie centrale consiste à rendre notre efficacité fondée sur des principes, permettant ainsi un transfert fluide d'un cadre OVS à un autre sans nécessiter de personnalisation supplémentaire. Des expériences approfondies sur divers benchmarks OVS démontrent notre meilleur compromis entre précision de segmentation et coûts computationnels par rapport aux travaux précédents. Notre code est disponible sur https://github.com/Xujxyang/OpenTrans.
English
Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans

Summary

AI-Generated Summary

PDF121December 15, 2024