Adattamento della Libreria Semantica: Recupero e Fusione LoRA per la Segmentazione Semantica a Vocabolario Aperto
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Autori: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Abstract
I modelli di segmentazione semantica a vocabolario aperto associano visione e testo per etichettare i pixel da un insieme non definito di classi utilizzando query testuali, offrendo prestazioni versatili su nuovi dataset. Tuttavia, grandi discrepanze tra i domini di addestramento e test ne compromettono le prestazioni, rendendo necessario il fine-tuning per applicazioni efficaci nel mondo reale. Introduciamo Semantic Library Adaptation (SemLA), un nuovo framework per l'adattamento al dominio in fase di test senza ulteriore addestramento. SemLA sfrutta una libreria di adattatori basati su LoRA indicizzati con embedding CLIP, fondendo dinamicamente gli adattatori più rilevanti in base alla prossimità al dominio target nello spazio di embedding. Questo approccio costruisce un modello ad hoc personalizzato per ogni input specifico senza ulteriore addestramento. Il nostro metodo scala in modo efficiente, migliora l'interpretabilità tracciando i contributi degli adattatori e protegge intrinsecamente la privacy dei dati, rendendolo ideale per applicazioni sensibili. Esperimenti completi su un benchmark di 20 domini costruito su 10 dataset standard dimostrano la superiore adattabilità e prestazioni di SemLA in contesti diversificati, stabilendo un nuovo standard nell'adattamento al dominio per la segmentazione semantica a vocabolario aperto.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary