Adaptation de bibliothèque sémantique : Récupération et fusion LoRA pour la segmentation sémantique à vocabulaire ouvert
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Auteurs: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Résumé
Les modèles de segmentation sémantique à vocabulaire ouvert associent vision et texte pour étiqueter les pixels à partir d'un ensemble indéfini de classes en utilisant des requêtes textuelles, offrant ainsi une performance polyvalente sur de nouveaux ensembles de données. Cependant, de grands écarts entre les domaines d'entraînement et de test dégradent leurs performances, nécessitant un ajustement fin pour des applications efficaces dans le monde réel. Nous introduisons Semantic Library Adaptation (SemLA), un nouveau cadre pour l'adaptation de domaine au moment du test sans entraînement supplémentaire. SemLA exploite une bibliothèque d'adaptateurs basés sur LoRA indexés avec des embeddings CLIP, fusionnant dynamiquement les adaptateurs les plus pertinents en fonction de leur proximité avec le domaine cible dans l'espace d'embedding. Cette approche construit un modèle ad hoc adapté à chaque entrée spécifique sans entraînement supplémentaire. Notre méthode est efficacement scalable, améliore l'explicabilité en suivant les contributions des adaptateurs, et protège intrinsèquement la confidentialité des données, la rendant idéale pour les applications sensibles. Des expériences approfondies sur un benchmark de 20 domaines construit à partir de 10 ensembles de données standard démontrent la supériorité de SemLA en termes d'adaptabilité et de performance dans divers contextes, établissant une nouvelle norme dans l'adaptation de domaine pour la segmentation sémantique à vocabulaire ouvert.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary