Adaptação de Biblioteca Semântica: Recuperação e Fusão LoRA para Segmentação Semântica de Vocabulário Aberto
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation
March 27, 2025
Autores: Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
cs.AI
Resumo
Modelos de segmentação semântica de vocabulário aberto associam visão e texto para rotular pixels a partir de um conjunto indefinido de classes usando consultas textuais, oferecendo desempenho versátil em novos conjuntos de dados. No entanto, grandes mudanças entre os domínios de treinamento e teste degradam seu desempenho, exigindo ajuste fino para aplicações eficazes no mundo real. Introduzimos a Adaptação de Biblioteca Semântica (SemLA), uma nova estrutura para adaptação de domínio em tempo de teste sem necessidade de treinamento. A SemLA aproveita uma biblioteca de adaptadores baseados em LoRA indexados com embeddings CLIP, combinando dinamicamente os adaptadores mais relevantes com base na proximidade ao domínio alvo no espaço de embeddings. Essa abordagem constrói um modelo ad-hoc personalizado para cada entrada específica sem treinamento adicional. Nosso método escala de forma eficiente, melhora a explicabilidade ao rastrear as contribuições dos adaptadores e protege inerentemente a privacidade dos dados, tornando-o ideal para aplicações sensíveis. Experimentos abrangentes em um benchmark de 20 domínios construído sobre 10 conjuntos de dados padrão demonstram a superior adaptabilidade e desempenho da SemLA em diversos cenários, estabelecendo um novo padrão em adaptação de domínio para segmentação semântica de vocabulário aberto.
English
Open-vocabulary semantic segmentation models associate vision and text to
label pixels from an undefined set of classes using textual queries, providing
versatile performance on novel datasets. However, large shifts between training
and test domains degrade their performance, requiring fine-tuning for effective
real-world applications. We introduce Semantic Library Adaptation (SemLA), a
novel framework for training-free, test-time domain adaptation. SemLA leverages
a library of LoRA-based adapters indexed with CLIP embeddings, dynamically
merging the most relevant adapters based on proximity to the target domain in
the embedding space. This approach constructs an ad-hoc model tailored to each
specific input without additional training. Our method scales efficiently,
enhances explainability by tracking adapter contributions, and inherently
protects data privacy, making it ideal for sensitive applications.
Comprehensive experiments on a 20-domain benchmark built over 10 standard
datasets demonstrate SemLA's superior adaptability and performance across
diverse settings, establishing a new standard in domain adaptation for
open-vocabulary semantic segmentation.Summary
AI-Generated Summary