Adaptación de Biblioteca Semántica: Recuperación y Fusión LoRA para Segmentación Semántica de Vocabulario Abierto

Resumen

Los modelos de segmentación semántica de vocabulario abierto asocian visión y texto para etiquetar píxeles de un conjunto indefinido de clases utilizando consultas textuales, ofreciendo un rendimiento versátil en conjuntos de datos novedosos. Sin embargo, grandes diferencias entre los dominios de entrenamiento y prueba degradan su rendimiento, requiriendo ajustes finos para aplicaciones efectivas en el mundo real. Presentamos Semantic Library Adaptation (SemLA), un marco novedoso para la adaptación de dominio en tiempo de prueba sin necesidad de entrenamiento adicional. SemLA aprovecha una biblioteca de adaptadores basados en LoRA indexados con incrustaciones CLIP, fusionando dinámicamente los adaptadores más relevantes según la proximidad al dominio objetivo en el espacio de incrustaciones. Este enfoque construye un modelo ad-hoc adaptado a cada entrada específica sin entrenamiento adicional. Nuestro método escala eficientemente, mejora la explicabilidad al rastrear las contribuciones de los adaptadores y protege inherentemente la privacidad de los datos, haciéndolo ideal para aplicaciones sensibles. Experimentos exhaustivos en un benchmark de 20 dominios construido sobre 10 conjuntos de datos estándar demuestran la superior adaptabilidad y rendimiento de SemLA en diversos entornos, estableciendo un nuevo estándar en la adaptación de dominio para la segmentación semántica de vocabulario abierto.

English

Open-vocabulary semantic segmentation models associate vision and text to label pixels from an undefined set of classes using textual queries, providing versatile performance on novel datasets. However, large shifts between training and test domains degrade their performance, requiring fine-tuning for effective real-world applications. We introduce Semantic Library Adaptation (SemLA), a novel framework for training-free, test-time domain adaptation. SemLA leverages a library of LoRA-based adapters indexed with CLIP embeddings, dynamically merging the most relevant adapters based on proximity to the target domain in the embedding space. This approach constructs an ad-hoc model tailored to each specific input without additional training. Our method scales efficiently, enhances explainability by tracking adapter contributions, and inherently protects data privacy, making it ideal for sensitive applications. Comprehensive experiments on a 20-domain benchmark built over 10 standard datasets demonstrate SemLA's superior adaptability and performance across diverse settings, establishing a new standard in domain adaptation for open-vocabulary semantic segmentation.