Semantische Bibliotheekaanpassing: LoRA-Retrieval en -Fusie voor Open-Vocabulair Semantische Segmentatie
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Auteurs: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Samenvatting
Open-vocabulary semantische segmentatiemodellen koppelen visie en tekst om pixels te labelen vanuit een ongedefinieerde set van klassen met behulp van tekstuele queries, wat een veelzijdige prestaties biedt op nieuwe datasets. Grote verschillen tussen trainings- en testdomeinen verminderen echter hun prestaties, waardoor fine-tuning nodig is voor effectieve toepassingen in de praktijk. Wij introduceren Semantic Library Adaptation (SemLA), een nieuw framework voor trainingsvrije, testtijd domeinadaptatie. SemLA maakt gebruik van een bibliotheek van LoRA-gebaseerde adapters die geïndexeerd zijn met CLIP-embeddings, waarbij de meest relevante adapters dynamisch worden samengevoegd op basis van nabijheid tot het doeldomein in de embeddingruimte. Deze aanpak construeert een ad-hoc model dat is afgestemd op elke specifieke input zonder extra training. Onze methode schaalt efficiënt, verbetert de uitlegbaarheid door bijdragen van adapters te volgen, en beschermt inherent de gegevensprivacy, wat het ideaal maakt voor gevoelige toepassingen. Uitgebreide experimenten op een benchmark van 20 domeinen, gebouwd over 10 standaarddatasets, tonen de superieure aanpassingsvermogen en prestaties van SemLA in diverse omgevingen, waarmee een nieuwe standaard wordt gevestigd in domeinadaptatie voor open-vocabulary semantische segmentatie.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary