PromptStyler: Geração de Estilo Orientada por Prompts para Generalização de Domínio sem Fonte

Resumo

Em um espaço conjunto de visão e linguagem, uma característica de texto (por exemplo, de "uma foto de um cachorro") poderia representar efetivamente suas características de imagem relevantes (por exemplo, de fotos de cachorros). Inspirados por isso, propomos o PromptStyler, que simula várias mudanças de distribuição no espaço conjunto ao sintetizar diversos estilos por meio de prompts, sem utilizar qualquer imagem, para lidar com a generalização de domínio sem fonte. Nosso método aprende a gerar uma variedade de características de estilo (de "um estilo S* de um") por meio de vetores de palavras de estilo aprendíveis para pseudo-palavras S*. Para garantir que os estilos aprendidos não distorçam as informações de conteúdo, forçamos as características de estilo-conteúdo (de "um estilo S* de um [classe]") a estarem próximas de suas características de conteúdo correspondentes (de "[classe]") no espaço conjunto de visão e linguagem. Após aprender os vetores de palavras de estilo, treinamos um classificador linear utilizando características de estilo-conteúdo sintetizadas. O PromptStyler alcança o estado da arte em PACS, VLCS, OfficeHome e DomainNet, embora não requeira qualquer imagem e leve apenas ~30 minutos para treinamento utilizando uma única GPU.

English

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.

PromptStyler: Geração de Estilo Orientada por Prompts para Generalização de Domínio sem Fonte

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Resumo

Support