Van Woorden naar Pixels: Een Raamwerk voor Kruismodaliteit Evolutie
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Auteurs: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Samenvatting
Diffusiemodellen en hun generalisatie, stroomafstemming, hebben een opmerkelijke impact gehad op het gebied van mediageneratie. Hier is de conventionele benadering om de complexe mapping te leren van een eenvoudige brondistributie van Gaussisch geluid naar de doeldistributie van media. Voor crossmodale taken zoals tekst-naar-afbeeldingsgeneratie wordt dezelfde mapping van geluid naar afbeelding geleerd terwijl een conditioneringmechanisme in het model wordt opgenomen. Een belangrijk en tot nu toe relatief onontgonnen kenmerk van stroomafstemming is dat ze, in tegenstelling tot diffusiemodellen, niet beperkt zijn tot geluid als brondistributie. Daarom stellen we in dit artikel een paradigma verschuiving voor en stellen de vraag of we in plaats daarvan stroomafstemmingsmodellen kunnen trainen om een directe mapping te leren van de distributie van de ene modaliteit naar de distributie van een andere, waardoor de noodzaak voor zowel de geluidsdistributie als het conditioneringmechanisme wordt geëlimineerd. We presenteren een algemeen en eenvoudig raamwerk, CrossFlow, voor crossmodale stroomafstemming. We tonen het belang aan van het toepassen van variatie-encoders op de invoergegevens en introduceren een methode om begeleiding zonder classificator mogelijk te maken. Verrassend genoeg presteert CrossFlow met een standaard transformer zonder kruislingse aandacht iets beter dan standaard stroomafstemming voor tekst-naar-afbeelding, en we laten zien dat het beter schaalt met trainingsstappen en modelgrootte, terwijl het ook interessante latente rekenkundige bewerkingen mogelijk maakt die leiden tot semantisch betekenisvolle bewerkingen in de uitvoerruimte. Om de generaliseerbaarheid van onze aanpak te demonstreren, laten we ook zien dat CrossFlow gelijkwaardig presteert of beter presteert dan de state-of-the-art voor verschillende crossmodale / intra-modale mappingtaken, namelijk beeldonderschriften, diepteschatting en beeldsuperresolutie. We hopen dat dit artikel bijdraagt aan het versnellen van de vooruitgang in crossmodale mediageneratie.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.