時間的アライメントガイダンス:拡散モデルにおける多様体上のサンプリング
Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models
October 13, 2025
著者: Youngrok Park, Hojung Jung, Sangmin Bae, Se-Young Yun
cs.AI
要旨
拡散モデルは生成モデルとして顕著な成功を収めている。しかし、十分に訓練されたモデルであっても、生成プロセス全体を通じて誤差が蓄積する可能性がある。これらの誤差は、サンプルを所望の特性に向けて誘導するために任意のガイダンスを適用する際に特に問題となり、サンプルの忠実性を損なうことが多い。本論文では、拡散モデルで観察されるオフマニフォールド現象に対処するための一般的な解決策を提案する。我々のアプローチでは、タイムステップごとに所望のデータマニフォールドからの偏差を推定するために時間予測器を活用し、時間ギャップが大きいほど生成品質が低下することを特定する。次に、生成プロセス中の各タイムステップでサンプルを所望のマニフォールドに引き戻す新しいガイダンス機構「Temporal Alignment Guidance」(TAG)を設計する。広範な実験を通じて、TAGが各タイムステップで所望のマニフォールドに密接に整合したサンプルを一貫して生成し、様々な下流タスクにおける生成品質の大幅な向上をもたらすことを実証する。
English
Diffusion models have achieved remarkable success as generative models.
However, even a well-trained model can accumulate errors throughout the
generation process. These errors become particularly problematic when arbitrary
guidance is applied to steer samples toward desired properties, which often
breaks sample fidelity. In this paper, we propose a general solution to address
the off-manifold phenomenon observed in diffusion models. Our approach
leverages a time predictor to estimate deviations from the desired data
manifold at each timestep, identifying that a larger time gap is associated
with reduced generation quality. We then design a novel guidance mechanism,
`Temporal Alignment Guidance' (TAG), attracting the samples back to the desired
manifold at every timestep during generation. Through extensive experiments, we
demonstrate that TAG consistently produces samples closely aligned with the
desired manifold at each timestep, leading to significant improvements in
generation quality across various downstream tasks.