PromptStyler : Génération de styles pilotée par des prompts pour la généralisation de domaine sans source
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization
July 27, 2023
Auteurs: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
cs.AI
Résumé
Dans un espace conjoint vision-langage, une caractéristique textuelle (par exemple, provenant de "une photo d'un chien") pourrait représenter efficacement ses caractéristiques visuelles pertinentes (par exemple, provenant de photos de chiens). Inspirés par cela, nous proposons PromptStyler, qui simule divers décalages de distribution dans l'espace conjoint en synthétisant des styles variés via des prompts, sans utiliser aucune image, pour traiter la généralisation de domaine sans source. Notre méthode apprend à générer une variété de caractéristiques de style (provenant de "un style S* de") via des vecteurs de mots de style apprenables pour des pseudo-mots S*. Pour s'assurer que les styles appris ne déforment pas l'information de contenu, nous forçons les caractéristiques style-contenu (provenant de "un style S* de [classe]") à se situer à proximité de leurs caractéristiques de contenu correspondantes (provenant de "[classe]") dans l'espace conjoint vision-langage. Après l'apprentissage des vecteurs de mots de style, nous entraînons un classifieur linéaire en utilisant les caractéristiques style-contenu synthétisées. PromptStyler atteint l'état de l'art sur PACS, VLCS, OfficeHome et DomainNet, bien qu'il ne nécessite aucune image et ne prenne qu'environ 30 minutes pour l'entraînement en utilisant un seul GPU.
English
In a joint vision-language space, a text feature (e.g., from "a photo of a
dog") could effectively represent its relevant image features (e.g., from dog
photos). Inspired by this, we propose PromptStyler which simulates various
distribution shifts in the joint space by synthesizing diverse styles via
prompts without using any images to deal with source-free domain
generalization. Our method learns to generate a variety of style features (from
"a S* style of a") via learnable style word vectors for pseudo-words S*. To
ensure that learned styles do not distort content information, we force
style-content features (from "a S* style of a [class]") to be located nearby
their corresponding content features (from "[class]") in the joint
vision-language space. After learning style word vectors, we train a linear
classifier using synthesized style-content features. PromptStyler achieves the
state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not
require any images and takes just ~30 minutes for training using a single GPU.