PromptStyler: Generazione di Stili Guidata da Prompt per la Generalizzazione di Dominio senza Sorgente

Abstract

In uno spazio congiunto visione-linguaggio, una caratteristica testuale (ad esempio, da "una foto di un cane") potrebbe rappresentare efficacemente le sue caratteristiche visive rilevanti (ad esempio, da foto di cani). Ispirati da ciò, proponiamo PromptStyler, che simula vari spostamenti di distribuzione nello spazio congiunto sintetizzando stili diversi tramite prompt senza utilizzare alcuna immagine per affrontare la generalizzazione di dominio senza sorgente. Il nostro metodo impara a generare una varietà di caratteristiche stilistiche (da "uno stile S* di un") tramite vettori di parole stilistiche apprendibili per pseudo-parole S*. Per garantire che gli stili appresi non distorcano le informazioni sul contenuto, forziamo le caratteristiche stile-contenuto (da "uno stile S* di un [classe]") a trovarsi vicino alle loro corrispondenti caratteristiche di contenuto (da "[classe]") nello spazio congiunto visione-linguaggio. Dopo aver appreso i vettori di parole stilistiche, addestriamo un classificatore lineare utilizzando le caratteristiche stile-contenuto sintetizzate. PromptStyler raggiunge lo stato dell'arte su PACS, VLCS, OfficeHome e DomainNet, nonostante non richieda alcuna immagine e impieghi solo circa 30 minuti per l'addestramento utilizzando una singola GPU.

English

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.

PromptStyler: Generazione di Stili Guidata da Prompt per la Generalizzazione di Dominio senza Sorgente

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Abstract

Support