De la Parole aux Pixels : Un Cadre pour l'Évolution en Cross-Modalité
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Auteurs: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Résumé
Les modèles de diffusion, et leur généralisation, l'appariement de flux, ont eu un impact remarquable sur le domaine de la génération de médias. Ici, l'approche conventionnelle consiste à apprendre la cartographie complexe d'une distribution source simple de bruit gaussien vers la distribution cible des médias. Pour les tâches cross-modales telles que la génération de texte en image, cette même cartographie du bruit vers l'image est apprise en incluant un mécanisme de conditionnement dans le modèle. Une caractéristique clé et jusqu'à présent relativement peu explorée de l'appariement de flux est que, contrairement aux modèles de diffusion, ils ne sont pas contraints à ce que la distribution source soit du bruit. Ainsi, dans cet article, nous proposons un changement de paradigme, et nous posons la question de savoir si nous pouvons plutôt entraîner des modèles d'appariement de flux à apprendre une cartographie directe de la distribution d'une modalité vers la distribution d'une autre, éliminant ainsi le besoin à la fois de la distribution de bruit et du mécanisme de conditionnement. Nous présentons un cadre général et simple, CrossFlow, pour l'appariement de flux cross-modal. Nous montrons l'importance d'appliquer des codeurs variationnels aux données d'entrée, et introduisons une méthode permettant de guider sans classificateur. Étonnamment, pour le texte en image, CrossFlow avec un transformateur vanille sans attention croisée surpasse légèrement l'appariement de flux standard, et nous montrons qu'il s'échelonne mieux avec les étapes d'entraînement et la taille du modèle, tout en permettant également des calculs latents intéressants qui se traduisent par des modifications sémantiquement significatives dans l'espace de sortie. Pour démontrer la généralisabilité de notre approche, nous montrons également que CrossFlow est à la hauteur ou surpasse l'état de l'art pour diverses tâches de cartographie cross-modale / intra-modale, à savoir le sous-titrage d'images, l'estimation de profondeur et la super-résolution d'images. Nous espérons que cet article contribuera à accélérer les progrès dans la génération de médias cross-modaux.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.Summary
AI-Generated Summary