PromptStyler: Prompt-gestuurde Stijlgeneratie voor Bronvrije Domeingeneralizatie

Samenvatting

In een gezamenlijke visie-taalruimte kan een tekstkenmerk (bijvoorbeeld van "een foto van een hond") effectief zijn relevante beeldkenmerken (bijvoorbeeld van hondenfoto's) vertegenwoordigen. Geïnspireerd door dit idee stellen we PromptStyler voor, dat verschillende distributieverschuivingen in de gezamenlijke ruimte simuleert door diverse stijlen te synthetiseren via prompts zonder gebruik te maken van afbeeldingen, om zo bronvrije domeingeneralizatie aan te pakken. Onze methode leert om een verscheidenheid aan stijlkenmerken (van "een S* stijl van een") te genereren via leerbare stijlwoordvectoren voor pseudo-woorden S*. Om ervoor te zorgen dat de geleerde stijlen de inhoudsinformatie niet verstoren, dwingen we stijl-inhoudskenmerken (van "een S* stijl van een [klasse]") om dicht bij hun corresponderende inhoudskenmerken (van "[klasse]") in de gezamenlijke visie-taalruimte te blijven. Na het leren van de stijlwoordvectoren trainen we een lineaire classifier met behulp van gesynthetiseerde stijl-inhoudskenmerken. PromptStyler behaalt de state-of-the-art op PACS, VLCS, OfficeHome en DomainNet, hoewel het geen afbeeldingen vereist en slechts ~30 minuten nodig heeft voor training met een enkele GPU.

English

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.

PromptStyler: Prompt-gestuurde Stijlgeneratie voor Bronvrije Domeingeneralizatie

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Samenvatting

Support