Guidance d'alignement temporel : Échantillonnage sur la variété dans les modèles de diffusion
Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models
October 13, 2025
papers.authors: Youngrok Park, Hojung Jung, Sangmin Bae, Se-Young Yun
cs.AI
papers.abstract
Les modèles de diffusion ont obtenu un succès remarquable en tant que modèles génératifs. Cependant, même un modèle bien entraîné peut accumuler des erreurs tout au long du processus de génération. Ces erreurs deviennent particulièrement problématiques lorsqu'un guidage arbitraire est appliqué pour orienter les échantillons vers des propriétés souhaitées, ce qui compromet souvent la fidélité des échantillons. Dans cet article, nous proposons une solution générale pour remédier au phénomène hors variété observé dans les modèles de diffusion. Notre approche utilise un prédicteur temporel pour estimer les écarts par rapport à la variété de données souhaitée à chaque pas de temps, identifiant qu'un écart temporel plus important est associé à une qualité de génération réduite. Nous concevons ensuite un nouveau mécanisme de guidage, appelé `Guidage par Alignement Temporel' (TAG), qui attire les échantillons vers la variété souhaitée à chaque pas de temps pendant la génération. À travers des expériences approfondies, nous démontrons que TAG produit systématiquement des échantillons étroitement alignés avec la variété souhaitée à chaque pas de temps, conduisant à des améliorations significatives de la qualité de génération dans diverses tâches en aval.
English
Diffusion models have achieved remarkable success as generative models.
However, even a well-trained model can accumulate errors throughout the
generation process. These errors become particularly problematic when arbitrary
guidance is applied to steer samples toward desired properties, which often
breaks sample fidelity. In this paper, we propose a general solution to address
the off-manifold phenomenon observed in diffusion models. Our approach
leverages a time predictor to estimate deviations from the desired data
manifold at each timestep, identifying that a larger time gap is associated
with reduced generation quality. We then design a novel guidance mechanism,
`Temporal Alignment Guidance' (TAG), attracting the samples back to the desired
manifold at every timestep during generation. Through extensive experiments, we
demonstrate that TAG consistently produces samples closely aligned with the
desired manifold at each timestep, leading to significant improvements in
generation quality across various downstream tasks.