Адаптация семантической библиотеки: извлечение и слияние LoRA для семантической сегментации с открытым словарем
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Авторы: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Аннотация
Модели семантической сегментации с открытым словарем связывают визуальные данные и текст для маркировки пикселей из неопределенного набора классов с использованием текстовых запросов, обеспечивая универсальную производительность на новых наборах данных. Однако значительные различия между обучающими и тестовыми доменами снижают их эффективность, что требует тонкой настройки для успешного применения в реальных условиях. Мы представляем Semantic Library Adaptation (SemLA) — новый фреймворк для адаптации к домену во время тестирования без дополнительного обучения. SemLA использует библиотеку адаптеров на основе LoRA, индексированных с помощью эмбеддингов CLIP, динамически объединяя наиболее релевантные адаптеры на основе близости к целевому домену в пространстве эмбеддингов. Этот подход создает специализированную модель для каждого конкретного входного данных без дополнительного обучения. Наш метод эффективно масштабируется, повышает объяснимость за счет отслеживания вклада адаптеров и обеспечивает защиту конфиденциальности данных, что делает его идеальным для чувствительных приложений. Комплексные эксперименты на бенчмарке из 20 доменов, созданном на основе 10 стандартных наборов данных, демонстрируют превосходную адаптивность и производительность SemLA в различных условиях, устанавливая новый стандарт в адаптации доменов для семантической сегментации с открытым словарем.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary