Normalisierende Trajektorienmodelle

Zusammenfassung

Diffusionsbasierte Modelle zerlegen das Sampling in viele kleine gaußsche Entrauschungsschritte – eine Annahme, die zusammenbricht, wenn die Generierung auf wenige grobe Übergänge komprimiert wird. Bestehende Methoden mit wenigen Schritten begegnen diesem Problem durch Destillation, Konsistenztraining oder adversariale Zielfunktionen, opfern dabei jedoch das Likelihood-Framework. Wir führen Normalizing Trajectory Models (NTM) ein, die jeden Rückwärtsschritt als ausdrucksstarken konditionalen Normalizing Flow mit exaktem Likelihood-Training modellieren. Architektonisch kombiniert NTM flache invertierbare Blöcke innerhalb jedes Schritts mit einem tiefen parallelen Prädiktor über die Trajektorie und bildet so ein Ende-zu-Ende-Netzwerk, das von Grund auf trainierbar oder von vortrainierten Flow-Matching-Modellen initialisierbar ist. Die exakte Trajektorien-Likelihood ermöglicht zudem Selbst-Destillation: ein leichter Entrauscher, der auf dem eigenen Score des Modells trainiert wird, erzeugt in vier Schritten hochwertige Stichproben. Bei Text-zu-Bild-Benchmarks erreicht oder übertrifft NTM in nur vier Abtastschritten starke Bildgenerierungs-Baselines, während es einzigartig die exakte Likelihood über die generative Trajektorie beibehält.

English

Diffusion-based models decompose sampling into many small Gaussian denoising steps -- an assumption that breaks down when generation is compressed to a few coarse transitions. Existing few-step methods address this through distillation, consistency training, or adversarial objectives, but sacrifice the likelihood framework in the process. We introduce Normalizing Trajectory Models (NTM), which models each reverse step as an expressive conditional normalizing flow with exact likelihood training. Architecturally, NTM combines shallow invertible blocks within each step with a deep parallel predictor across the trajectory, forming an end-to-end network trainable from scratch or initializable from pretrained flow-matching models. Its exact trajectory likelihood further enables self-distillation: a lightweight denoiser trained on the model's own score produces high-quality samples in four steps. On text-to-image benchmarks, NTM matches or outperforms strong image generation baselines in just four sampling steps while uniquely retaining exact likelihood over the generative trajectory.