Variational Flow Maps: Machen Sie Lärm für die Ein-Schritt-bedingte Erzeugung
Variational Flow Maps: Make Some Noise for One-Step Conditional Generation
March 7, 2026
Autoren: Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner
cs.AI
Zusammenfassung
Flow Maps ermöglichen die Erzeugung hochwertiger Bilder in einem einzigen Vorwärtsdurchlauf. Im Gegensatz zu iterativen Diffusionsmodellen verhindert ihr Fehlen eines expliziten Sampling-Pfads jedoch die Einbindung externer Randbedingungen für bedingte Generierung und die Lösung inverser Probleme. Wir stellen Variational Flow Maps vor, einen Rahmen für bedingtes Sampling, der die Perspektive der Konditionierung von der "Steuerung eines Sampling-Pfads" hin zum "Lernen des richtigen Anfangsrauschens" verschiebt. Konkret lernen wir bei gegebener Beobachtung ein Rausch-Adapter-Modell, das eine Rauschverteilung ausgibt, sodass die Samples nach der Abbildung in den Datenraum via Flow Map die Beobachtung und die Datenpriori respektieren. Zu diesem Zweck entwickeln wir ein prinzipielles variationsbasiertes Ziel, das den Rausch-Adapter und den Flow Map gemeinsam trainiert, um die Rausch-Daten-Ausrichtung zu verbessern, sodass das Sampling aus komplexen Datenposteriors mit einem einfachen Adapter erreicht wird. Experimente zu verschiedenen inversen Problemen zeigen, dass VFMs gut kalibrierte bedingte Samples in einem (oder wenigen) Schritten erzeugen. Für ImageNet erreicht VFM eine wettbewerbsfähige Qualität, während es den Sampling-Prozess im Vergleich zu alternativen iterativen Diffusions-/Flow-Modellen um Größenordnungen beschleunigt. Code ist verfügbar unter https://github.com/abbasmammadov/VFM.
English
Flow maps enable high-quality image generation in a single forward pass. However, unlike iterative diffusion models, their lack of an explicit sampling trajectory impedes incorporating external constraints for conditional generation and solving inverse problems. We put forth Variational Flow Maps, a framework for conditional sampling that shifts the perspective of conditioning from "guiding a sampling path", to that of "learning the proper initial noise". Specifically, given an observation, we seek to learn a noise adapter model that outputs a noise distribution, so that after mapping to the data space via flow map, the samples respect the observation and data prior. To this end, we develop a principled variational objective that jointly trains the noise adapter and the flow map, improving noise-data alignment, such that sampling from complex data posterior is achieved with a simple adapter. Experiments on various inverse problems show that VFMs produce well-calibrated conditional samples in a single (or few) steps. For ImageNet, VFM attains competitive fidelity while accelerating the sampling by orders of magnitude compared to alternative iterative diffusion/flow models. Code is available at https://github.com/abbasmammadov/VFM