ChatPaper.aiChatPaper

PromptStyler: Генерация стилей на основе промптов для обобщения доменов без исходных данных

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

July 27, 2023
Авторы: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
cs.AI

Аннотация

В совместном визуально-языковом пространстве текстовая характеристика (например, из "фотография собаки") может эффективно представлять соответствующие визуальные характеристики (например, из фотографий собак). Вдохновленные этим, мы предлагаем PromptStyler, который моделирует различные сдвиги распределения в совместном пространстве путем синтеза разнообразных стилей с использованием подсказок, не прибегая к использованию изображений, для решения задачи обобщения на домены без исходных данных. Наш метод обучается генерировать разнообразные стилевые характеристики (из "стиль S* для") с помощью обучаемых векторов стилевых слов для псевдослов S*. Чтобы гарантировать, что изученные стили не искажают информацию о содержании, мы заставляем стилево-содержательные характеристики (из "стиль S* для [класса]") располагаться рядом с соответствующими содержательными характеристиками (из "[класса]") в совместном визуально-языковом пространстве. После обучения векторов стилевых слов мы обучаем линейный классификатор, используя синтезированные стилево-содержательные характеристики. PromptStyler достигает наилучших результатов на наборах данных PACS, VLCS, OfficeHome и DomainNet, хотя не требует использования изображений и занимает всего ~30 минут для обучения с использованием одного GPU.
English
In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.
PDF120December 15, 2024