Де-диффузия делает текст мощным кросс-модальным интерфейсом
De-Diffusion Makes Text a Strong Cross-Modal Interface
November 1, 2023
Авторы: Chen Wei, Chenxi Liu, Siyuan Qiao, Zhishuai Zhang, Alan Yuille, Jiahui Yu
cs.AI
Аннотация
Мы демонстрируем текст как мощный кросс-модальный интерфейс. Вместо использования глубоких эмбеддингов для связи изображений и языка в качестве представления интерфейса, наш подход представляет изображение в виде текста, что позволяет нам использовать интерпретируемость и гибкость, присущие естественному языку. Мы применяем автоэнкодер, который использует предобученную диффузионную модель для преобразования текста в изображение в качестве декодера. Энкодер обучается преобразовывать входное изображение в текст, который затем подается в фиксированный диффузионный декодер для восстановления исходного изображения — процесс, который мы называем Де-Диффузией. Эксперименты подтверждают как точность, так и полноту текстового представления изображений с помощью Де-Диффузии, что позволяет легко использовать его в готовых инструментах для преобразования текста в изображение и в больших языковых моделях (LLM) для решения разнообразных мультимодальных задач. Например, одна модель Де-Диффузии может обобщать и предоставлять переносимые промпты для различных инструментов преобразования текста в изображение, а также устанавливает новый эталон в открытых задачах на стыке зрения и языка, просто используя несколько примеров для подсказки большим языковым моделям.
English
We demonstrate text as a strong cross-modal interface. Rather than relying on
deep embeddings to connect image and language as the interface representation,
our approach represents an image as text, from which we enjoy the
interpretability and flexibility inherent to natural language. We employ an
autoencoder that uses a pre-trained text-to-image diffusion model for decoding.
The encoder is trained to transform an input image into text, which is then fed
into the fixed text-to-image diffusion decoder to reconstruct the original
input -- a process we term De-Diffusion. Experiments validate both the
precision and comprehensiveness of De-Diffusion text representing images, such
that it can be readily ingested by off-the-shelf text-to-image tools and LLMs
for diverse multi-modal tasks. For example, a single De-Diffusion model can
generalize to provide transferable prompts for different text-to-image tools,
and also achieves a new state of the art on open-ended vision-language tasks by
simply prompting large language models with few-shot examples.