PromptStyler: Geração de Estilo Orientada por Prompts para Generalização de Domínio sem Fonte
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization
July 27, 2023
Autores: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
cs.AI
Resumo
Em um espaço conjunto de visão e linguagem, uma característica de texto (por exemplo, de "uma foto de um cachorro") poderia representar efetivamente suas características de imagem relevantes (por exemplo, de fotos de cachorros). Inspirados por isso, propomos o PromptStyler, que simula várias mudanças de distribuição no espaço conjunto ao sintetizar diversos estilos por meio de prompts, sem utilizar qualquer imagem, para lidar com a generalização de domínio sem fonte. Nosso método aprende a gerar uma variedade de características de estilo (de "um estilo S* de um") por meio de vetores de palavras de estilo aprendíveis para pseudo-palavras S*. Para garantir que os estilos aprendidos não distorçam as informações de conteúdo, forçamos as características de estilo-conteúdo (de "um estilo S* de um [classe]") a estarem próximas de suas características de conteúdo correspondentes (de "[classe]") no espaço conjunto de visão e linguagem. Após aprender os vetores de palavras de estilo, treinamos um classificador linear utilizando características de estilo-conteúdo sintetizadas. O PromptStyler alcança o estado da arte em PACS, VLCS, OfficeHome e DomainNet, embora não requeira qualquer imagem e leve apenas ~30 minutos para treinamento utilizando uma única GPU.
English
In a joint vision-language space, a text feature (e.g., from "a photo of a
dog") could effectively represent its relevant image features (e.g., from dog
photos). Inspired by this, we propose PromptStyler which simulates various
distribution shifts in the joint space by synthesizing diverse styles via
prompts without using any images to deal with source-free domain
generalization. Our method learns to generate a variety of style features (from
"a S* style of a") via learnable style word vectors for pseudo-words S*. To
ensure that learned styles do not distort content information, we force
style-content features (from "a S* style of a [class]") to be located nearby
their corresponding content features (from "[class]") in the joint
vision-language space. After learning style word vectors, we train a linear
classifier using synthesized style-content features. PromptStyler achieves the
state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not
require any images and takes just ~30 minutes for training using a single GPU.