Temporale Ausrichtungsführung: On-Manifold-Sampling in Diffusionsmodellen
Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models
October 13, 2025
papers.authors: Youngrok Park, Hojung Jung, Sangmin Bae, Se-Young Yun
cs.AI
papers.abstract
Diffusionsmodelle haben als generative Modelle bemerkenswerte Erfolge erzielt. Allerdings kann selbst ein gut trainiertes Modell während des Generierungsprozesses Fehler akkumulieren. Diese Fehler werden besonders problematisch, wenn eine beliebige Steuerung angewendet wird, um Proben in Richtung gewünschter Eigenschaften zu lenken, was häufig die Probentreue beeinträchtigt. In diesem Artikel schlagen wir eine allgemeine Lösung vor, um das Off-Manifold-Phänomen, das in Diffusionsmodellen beobachtet wird, zu adressieren. Unser Ansatz nutzt einen Zeitprädiktor, um Abweichungen von der gewünschten Datenmannigfaltigkeit in jedem Zeitschritt zu schätzen, wobei festgestellt wird, dass eine größere Zeitspanne mit einer reduzierten Generierungsqualität verbunden ist. Anschließend entwerfen wir einen neuartigen Steuerungsmechanismus, die sogenannte „Temporal Alignment Guidance“ (TAG), der die Proben in jedem Zeitschritt während der Generierung zurück zur gewünschten Mannigfaltigkeit führt. Durch umfangreiche Experimente zeigen wir, dass TAG konsistent Proben erzeugt, die in jedem Zeitschritt eng mit der gewünschten Mannigfaltigkeit übereinstimmen, was zu signifikanten Verbesserungen der Generierungsqualität in verschiedenen nachgelagerten Aufgaben führt.
English
Diffusion models have achieved remarkable success as generative models.
However, even a well-trained model can accumulate errors throughout the
generation process. These errors become particularly problematic when arbitrary
guidance is applied to steer samples toward desired properties, which often
breaks sample fidelity. In this paper, we propose a general solution to address
the off-manifold phenomenon observed in diffusion models. Our approach
leverages a time predictor to estimate deviations from the desired data
manifold at each timestep, identifying that a larger time gap is associated
with reduced generation quality. We then design a novel guidance mechanism,
`Temporal Alignment Guidance' (TAG), attracting the samples back to the desired
manifold at every timestep during generation. Through extensive experiments, we
demonstrate that TAG consistently produces samples closely aligned with the
desired manifold at each timestep, leading to significant improvements in
generation quality across various downstream tasks.