ChatPaper.aiChatPaper

De-Diffusion maakt tekst een sterke cross-modale interface

De-Diffusion Makes Text a Strong Cross-Modal Interface

November 1, 2023
Auteurs: Chen Wei, Chenxi Liu, Siyuan Qiao, Zhishuai Zhang, Alan Yuille, Jiahui Yu
cs.AI

Samenvatting

We demonstreren tekst als een krachtige cross-modale interface. In plaats van te vertrouwen op diepe embeddings om afbeeldingen en taal als interface-representatie te verbinden, representeert onze aanpak een afbeelding als tekst, waarvan we de inherente interpreteerbaarheid en flexibiliteit van natuurlijke taal benutten. We gebruiken een auto-encoder die een vooraf getraind tekst-naar-afbeelding diffusiemodel gebruikt voor decodering. De encoder wordt getraind om een invoerafbeelding om te zetten in tekst, die vervolgens wordt ingevoerd in de vaste tekst-naar-afbeelding diffusiedecoder om de oorspronkelijke invoer te reconstrueren – een proces dat we De-Diffusie noemen. Experimenten valideren zowel de precisie als de volledigheid van De-Diffusie-tekst die afbeeldingen representeert, zodat deze direct kan worden gebruikt door standaard tekst-naar-afbeelding tools en LLM's voor diverse multimodale taken. Zo kan een enkel De-Diffusie-model generaliseren om overdraagbare prompts te bieden voor verschillende tekst-naar-afbeelding tools, en behaalt het ook een nieuwe staat-van-de-kunst op open-einde visie-taal taken door eenvoudigweg grote taalmodellen te voorzien van few-shot voorbeelden.
English
We demonstrate text as a strong cross-modal interface. Rather than relying on deep embeddings to connect image and language as the interface representation, our approach represents an image as text, from which we enjoy the interpretability and flexibility inherent to natural language. We employ an autoencoder that uses a pre-trained text-to-image diffusion model for decoding. The encoder is trained to transform an input image into text, which is then fed into the fixed text-to-image diffusion decoder to reconstruct the original input -- a process we term De-Diffusion. Experiments validate both the precision and comprehensiveness of De-Diffusion text representing images, such that it can be readily ingested by off-the-shelf text-to-image tools and LLMs for diverse multi-modal tasks. For example, a single De-Diffusion model can generalize to provide transferable prompts for different text-to-image tools, and also achieves a new state of the art on open-ended vision-language tasks by simply prompting large language models with few-shot examples.
PDF2312February 8, 2026