ChatPaper.aiChatPaper

PromptStyler: Prompt-gesteuerte Stilgenerierung für die quellenfreie Domänengeneralisierung

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

July 27, 2023
Autoren: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
cs.AI

Zusammenfassung

In einem gemeinsamen Vision-Sprache-Raum könnte ein Textmerkmal (z. B. von „ein Foto eines Hundes“) effektiv seine relevanten Bildmerkmale (z. B. von Hundefotos) repräsentieren. Inspiriert davon schlagen wir PromptStyler vor, das verschiedene Verteilungsverschiebungen in diesem gemeinsamen Raum simuliert, indem es diverse Stile über Prompts synthetisiert, ohne dabei Bilder zu verwenden, um die domänenfreie Generalisierung zu bewältigen. Unsere Methode lernt, eine Vielzahl von Stilmerkmalen (aus „ein S*-Stil eines“) über lernbare Stilwortvektoren für Pseudowörter S* zu erzeugen. Um sicherzustellen, dass die gelernten Stile keine Inhaltsinformationen verzerren, zwingen wir Stil-Inhalts-Merkmale (aus „ein S*-Stil eines [Klasse]“) dazu, in der Nähe ihrer entsprechenden Inhaltsmerkmale (aus „[Klasse]“) im gemeinsamen Vision-Sprache-Raum zu liegen. Nach dem Lernen der Stilwortvektoren trainieren wir einen linearen Klassifikator unter Verwendung der synthetisierten Stil-Inhalts-Merkmale. PromptStyler erreicht den Stand der Technik auf PACS, VLCS, OfficeHome und DomainNet, obwohl es keine Bilder benötigt und nur ~30 Minuten für das Training mit einer einzelnen GPU in Anspruch nimmt.
English
In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.
PDF120December 15, 2024