Temporale Ausrichtungsführung: On-Manifold-Sampling in Diffusionsmodellen

papers.abstract

Diffusionsmodelle haben als generative Modelle bemerkenswerte Erfolge erzielt. Allerdings kann selbst ein gut trainiertes Modell während des Generierungsprozesses Fehler akkumulieren. Diese Fehler werden besonders problematisch, wenn eine beliebige Steuerung angewendet wird, um Proben in Richtung gewünschter Eigenschaften zu lenken, was häufig die Probentreue beeinträchtigt. In diesem Artikel schlagen wir eine allgemeine Lösung vor, um das Off-Manifold-Phänomen, das in Diffusionsmodellen beobachtet wird, zu adressieren. Unser Ansatz nutzt einen Zeitprädiktor, um Abweichungen von der gewünschten Datenmannigfaltigkeit in jedem Zeitschritt zu schätzen, wobei festgestellt wird, dass eine größere Zeitspanne mit einer reduzierten Generierungsqualität verbunden ist. Anschließend entwerfen wir einen neuartigen Steuerungsmechanismus, die sogenannte „Temporal Alignment Guidance“ (TAG), der die Proben in jedem Zeitschritt während der Generierung zurück zur gewünschten Mannigfaltigkeit führt. Durch umfangreiche Experimente zeigen wir, dass TAG konsistent Proben erzeugt, die in jedem Zeitschritt eng mit der gewünschten Mannigfaltigkeit übereinstimmen, was zu signifikanten Verbesserungen der Generierungsqualität in verschiedenen nachgelagerten Aufgaben führt.

English

Diffusion models have achieved remarkable success as generative models. However, even a well-trained model can accumulate errors throughout the generation process. These errors become particularly problematic when arbitrary guidance is applied to steer samples toward desired properties, which often breaks sample fidelity. In this paper, we propose a general solution to address the off-manifold phenomenon observed in diffusion models. Our approach leverages a time predictor to estimate deviations from the desired data manifold at each timestep, identifying that a larger time gap is associated with reduced generation quality. We then design a novel guidance mechanism, `Temporal Alignment Guidance' (TAG), attracting the samples back to the desired manifold at every timestep during generation. Through extensive experiments, we demonstrate that TAG consistently produces samples closely aligned with the desired manifold at each timestep, leading to significant improvements in generation quality across various downstream tasks.

Temporale Ausrichtungsführung: On-Manifold-Sampling in Diffusionsmodellen

Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models

papers.abstract

Support