PromptStyler: Generación de Estilos Dirigida por Prompts para la Generalización de Dominios sin Fuente
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization
July 27, 2023
Autores: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
cs.AI
Resumen
En un espacio conjunto de visión y lenguaje, una característica de texto (por ejemplo, de "una foto de un perro") podría representar efectivamente sus características de imagen relevantes (por ejemplo, de fotos de perros). Inspirados por esto, proponemos PromptStyler, que simula varios cambios de distribución en el espacio conjunto mediante la síntesis de diversos estilos a través de prompts, sin utilizar ninguna imagen, para abordar la generalización de dominio sin fuente. Nuestro método aprende a generar una variedad de características de estilo (de "un estilo S* de un") mediante vectores de palabras de estilo aprendibles para pseudo-palabras S*. Para asegurar que los estilos aprendidos no distorsionen la información de contenido, forzamos a que las características de estilo-contenido (de "un estilo S* de un [clase]") se ubiquen cerca de sus características de contenido correspondientes (de "[clase]") en el espacio conjunto de visión y lenguaje. Después de aprender los vectores de palabras de estilo, entrenamos un clasificador lineal utilizando características de estilo-contenido sintetizadas. PromptStyler logra el estado del arte en PACS, VLCS, OfficeHome y DomainNet, aunque no requiere ninguna imagen y toma solo ~30 minutos para el entrenamiento utilizando una sola GPU.
English
In a joint vision-language space, a text feature (e.g., from "a photo of a
dog") could effectively represent its relevant image features (e.g., from dog
photos). Inspired by this, we propose PromptStyler which simulates various
distribution shifts in the joint space by synthesizing diverse styles via
prompts without using any images to deal with source-free domain
generalization. Our method learns to generate a variety of style features (from
"a S* style of a") via learnable style word vectors for pseudo-words S*. To
ensure that learned styles do not distort content information, we force
style-content features (from "a S* style of a [class]") to be located nearby
their corresponding content features (from "[class]") in the joint
vision-language space. After learning style word vectors, we train a linear
classifier using synthesized style-content features. PromptStyler achieves the
state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not
require any images and takes just ~30 minutes for training using a single GPU.