Де-диффузия делает текст мощным кросс-модальным интерфейсом

Аннотация

Мы демонстрируем текст как мощный кросс-модальный интерфейс. Вместо использования глубоких эмбеддингов для связи изображений и языка в качестве представления интерфейса, наш подход представляет изображение в виде текста, что позволяет нам использовать интерпретируемость и гибкость, присущие естественному языку. Мы применяем автоэнкодер, который использует предобученную диффузионную модель для преобразования текста в изображение в качестве декодера. Энкодер обучается преобразовывать входное изображение в текст, который затем подается в фиксированный диффузионный декодер для восстановления исходного изображения — процесс, который мы называем Де-Диффузией. Эксперименты подтверждают как точность, так и полноту текстового представления изображений с помощью Де-Диффузии, что позволяет легко использовать его в готовых инструментах для преобразования текста в изображение и в больших языковых моделях (LLM) для решения разнообразных мультимодальных задач. Например, одна модель Де-Диффузии может обобщать и предоставлять переносимые промпты для различных инструментов преобразования текста в изображение, а также устанавливает новый эталон в открытых задачах на стыке зрения и языка, просто используя несколько примеров для подсказки большим языковым моделям.

English

We demonstrate text as a strong cross-modal interface. Rather than relying on deep embeddings to connect image and language as the interface representation, our approach represents an image as text, from which we enjoy the interpretability and flexibility inherent to natural language. We employ an autoencoder that uses a pre-trained text-to-image diffusion model for decoding. The encoder is trained to transform an input image into text, which is then fed into the fixed text-to-image diffusion decoder to reconstruct the original input -- a process we term De-Diffusion. Experiments validate both the precision and comprehensiveness of De-Diffusion text representing images, such that it can be readily ingested by off-the-shelf text-to-image tools and LLMs for diverse multi-modal tasks. For example, a single De-Diffusion model can generalize to provide transferable prompts for different text-to-image tools, and also achieves a new state of the art on open-ended vision-language tasks by simply prompting large language models with few-shot examples.

Де-диффузия делает текст мощным кросс-модальным интерфейсом

De-Diffusion Makes Text a Strong Cross-Modal Interface

Аннотация

Support