Adaptación de Biblioteca Semántica: Recuperación y Fusión LoRA para Segmentación Semántica de Vocabulario Abierto
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Autores: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Resumen
Los modelos de segmentación semántica de vocabulario abierto asocian visión y texto para etiquetar píxeles de un conjunto indefinido de clases utilizando consultas textuales, ofreciendo un rendimiento versátil en conjuntos de datos novedosos. Sin embargo, grandes diferencias entre los dominios de entrenamiento y prueba degradan su rendimiento, requiriendo ajustes finos para aplicaciones efectivas en el mundo real. Presentamos Semantic Library Adaptation (SemLA), un marco novedoso para la adaptación de dominio en tiempo de prueba sin necesidad de entrenamiento adicional. SemLA aprovecha una biblioteca de adaptadores basados en LoRA indexados con incrustaciones CLIP, fusionando dinámicamente los adaptadores más relevantes según la proximidad al dominio objetivo en el espacio de incrustaciones. Este enfoque construye un modelo ad-hoc adaptado a cada entrada específica sin entrenamiento adicional. Nuestro método escala eficientemente, mejora la explicabilidad al rastrear las contribuciones de los adaptadores y protege inherentemente la privacidad de los datos, haciéndolo ideal para aplicaciones sensibles. Experimentos exhaustivos en un benchmark de 20 dominios construido sobre 10 conjuntos de datos estándar demuestran la superior adaptabilidad y rendimiento de SemLA en diversos entornos, estableciendo un nuevo estándar en la adaptación de dominio para la segmentación semántica de vocabulario abierto.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary