Von Worten zu Pixeln fließend: Ein Rahmenwerk für die Evolution von Cross-Modalität.
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution
December 19, 2024
Autoren: Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh
cs.AI
Zusammenfassung
Diffusionsmodelle und ihre Verallgemeinerung, das sogenannte Flussabgleich, haben einen bemerkenswerten Einfluss auf das Gebiet der Medienentstehung gehabt. Hier besteht der konventionelle Ansatz darin, die komplexe Zuordnung von einer einfachen Quellverteilung von Gaußschem Rauschen zur Zielmedienverteilung zu erlernen. Für kreuzmodale Aufgaben wie die Text-zu-Bild-Erzeugung wird dieselbe Zuordnung von Rauschen zu Bild erlernt, wobei ein Konditionierungsmechanismus im Modell enthalten ist. Ein Schlüsselfeature von Flussabgleich, das bisher relativ unerforscht ist, besteht darin, dass sie im Gegensatz zu Diffusionsmodellen nicht darauf beschränkt sind, dass die Quellverteilung Rauschen ist. Daher schlagen wir in diesem Paper einen Paradigmenwechsel vor und stellen die Frage, ob wir stattdessen Flussabgleichmodelle trainieren können, um eine direkte Zuordnung von der Verteilung einer Modalität zur Verteilung einer anderen zu erlernen und somit auf die Notwendigkeit sowohl der Rauschverteilung als auch des Konditionierungsmechanismus zu verzichten. Wir präsentieren einen allgemeinen und einfachen Rahmen, CrossFlow, für den kreuzmodalen Flussabgleich. Wir zeigen die Bedeutung der Anwendung von Variationsencodern auf die Eingabedaten und führen eine Methode ein, um eine klassifiziererfreie Anleitung zu ermöglichen. Überraschenderweise übertrifft CrossFlow für Text-zu-Bild mit einem einfachen Transformer ohne Kreuz-Aufmerksamkeit leicht den Standard-Flussabgleich, und wir zeigen, dass es besser mit Trainingschritten und Modellgröße skaliert, während es auch interessante latente Arithmetik ermöglicht, die zu semantisch sinnvollen Bearbeitungen im Ausgaberaum führt. Um die Generalisierbarkeit unseres Ansatzes zu demonstrieren, zeigen wir auch, dass CrossFlow bei verschiedenen kreuzmodalen / intra-modalen Zuordnungsaufgaben wie Bildunterschriften, Tiefenschätzung und Bild-Superresolution auf Augenhöhe oder besser als der Stand der Technik ist. Wir hoffen, dass dieses Paper dazu beiträgt, den Fortschritt in der kreuzmodalen Medienentstehung zu beschleunigen.
English
Diffusion models, and their generalization, flow matching, have had a
remarkable impact on the field of media generation. Here, the conventional
approach is to learn the complex mapping from a simple source distribution of
Gaussian noise to the target media distribution. For cross-modal tasks such as
text-to-image generation, this same mapping from noise to image is learnt
whilst including a conditioning mechanism in the model. One key and thus far
relatively unexplored feature of flow matching is that, unlike Diffusion
models, they are not constrained for the source distribution to be noise.
Hence, in this paper, we propose a paradigm shift, and ask the question of
whether we can instead train flow matching models to learn a direct mapping
from the distribution of one modality to the distribution of another, thus
obviating the need for both the noise distribution and conditioning mechanism.
We present a general and simple framework, CrossFlow, for cross-modal flow
matching. We show the importance of applying Variational Encoders to the input
data, and introduce a method to enable Classifier-free guidance. Surprisingly,
for text-to-image, CrossFlow with a vanilla transformer without cross attention
slightly outperforms standard flow matching, and we show that it scales better
with training steps and model size, while also allowing for interesting latent
arithmetic which results in semantically meaningful edits in the output space.
To demonstrate the generalizability of our approach, we also show that
CrossFlow is on par with or outperforms the state-of-the-art for various
cross-modal / intra-modal mapping tasks, viz. image captioning, depth
estimation, and image super-resolution. We hope this paper contributes to
accelerating progress in cross-modal media generation.Summary
AI-Generated Summary