ChatPaper.aiChatPaper

De la Parole aux Pixels : Un Cadre pour l'Évolution en Cross-Modalité

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

December 19, 2024
Auteurs: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI

Résumé

Les modèles de diffusion, et leur généralisation, l'appariement de flux, ont eu un impact remarquable sur le domaine de la génération de médias. Ici, l'approche conventionnelle consiste à apprendre la cartographie complexe d'une distribution source simple de bruit gaussien vers la distribution cible des médias. Pour les tâches cross-modales telles que la génération de texte en image, cette même cartographie du bruit vers l'image est apprise en incluant un mécanisme de conditionnement dans le modèle. Une caractéristique clé et jusqu'à présent relativement peu explorée de l'appariement de flux est que, contrairement aux modèles de diffusion, ils ne sont pas contraints à ce que la distribution source soit du bruit. Ainsi, dans cet article, nous proposons un changement de paradigme, et nous posons la question de savoir si nous pouvons plutôt entraîner des modèles d'appariement de flux à apprendre une cartographie directe de la distribution d'une modalité vers la distribution d'une autre, éliminant ainsi le besoin à la fois de la distribution de bruit et du mécanisme de conditionnement. Nous présentons un cadre général et simple, CrossFlow, pour l'appariement de flux cross-modal. Nous montrons l'importance d'appliquer des codeurs variationnels aux données d'entrée, et introduisons une méthode permettant de guider sans classificateur. Étonnamment, pour le texte en image, CrossFlow avec un transformateur vanille sans attention croisée surpasse légèrement l'appariement de flux standard, et nous montrons qu'il s'échelonne mieux avec les étapes d'entraînement et la taille du modèle, tout en permettant également des calculs latents intéressants qui se traduisent par des modifications sémantiquement significatives dans l'espace de sortie. Pour démontrer la généralisabilité de notre approche, nous montrons également que CrossFlow est à la hauteur ou surpasse l'état de l'art pour diverses tâches de cartographie cross-modale / intra-modale, à savoir le sous-titrage d'images, l'estimation de profondeur et la super-résolution d'images. Nous espérons que cet article contribuera à accélérer les progrès dans la génération de médias cross-modaux.
English
Diffusion models, and their generalization, flow matching, have had a remarkable impact on the field of media generation. Here, the conventional approach is to learn the complex mapping from a simple source distribution of Gaussian noise to the target media distribution. For cross-modal tasks such as text-to-image generation, this same mapping from noise to image is learnt whilst including a conditioning mechanism in the model. One key and thus far relatively unexplored feature of flow matching is that, unlike Diffusion models, they are not constrained for the source distribution to be noise. Hence, in this paper, we propose a paradigm shift, and ask the question of whether we can instead train flow matching models to learn a direct mapping from the distribution of one modality to the distribution of another, thus obviating the need for both the noise distribution and conditioning mechanism. We present a general and simple framework, CrossFlow, for cross-modal flow matching. We show the importance of applying Variational Encoders to the input data, and introduce a method to enable Classifier-free guidance. Surprisingly, for text-to-image, CrossFlow with a vanilla transformer without cross attention slightly outperforms standard flow matching, and we show that it scales better with training steps and model size, while also allowing for interesting latent arithmetic which results in semantically meaningful edits in the output space. To demonstrate the generalizability of our approach, we also show that CrossFlow is on par with or outperforms the state-of-the-art for various cross-modal / intra-modal mapping tasks, viz. image captioning, depth estimation, and image super-resolution. We hope this paper contributes to accelerating progress in cross-modal media generation.

Summary

AI-Generated Summary

PDF294December 20, 2024