시간적 정렬 가이던스: 확산 모델에서의 매니폴드 상 샘플링
Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models
October 13, 2025
저자: Youngrok Park, Hojung Jung, Sangmin Bae, Se-Young Yun
cs.AI
초록
디퓨전 모델은 생성 모델로서 놀라운 성공을 거두었습니다. 그러나 잘 훈련된 모델조차도 생성 과정 전반에 걸쳐 오차가 누적될 수 있습니다. 이러한 오차는 원하는 속성을 갖도록 샘플을 유도하기 위해 임의의 가이던스를 적용할 때 특히 문제가 되며, 이는 종종 샘플의 충실도를 저해합니다. 본 논문에서는 디퓨전 모델에서 관찰되는 매니폴드 이탈 현상을 해결하기 위한 일반적인 솔루션을 제안합니다. 우리의 접근 방식은 각 타임스텝에서 원하는 데이터 매니폴드로부터의 편차를 추정하기 위해 시간 예측기를 활용하며, 더 큰 시간 간격이 생성 품질 저하와 연관되어 있음을 확인했습니다. 그런 다음, 생성 과정 중 매 타임스텝마다 샘플을 원하는 매니폴드로 다시 끌어당기는 새로운 가이던스 메커니즘인 '시간적 정렬 가이던스'(Temporal Alignment Guidance, TAG)를 설계했습니다. 광범위한 실험을 통해 TAG가 각 타임스텝에서 원하는 매니폴드와 밀접하게 정렬된 샘플을 일관되게 생성하며, 다양한 다운스트림 작업에서 생성 품질의 상당한 개선을 이끌어냄을 입증했습니다.
English
Diffusion models have achieved remarkable success as generative models.
However, even a well-trained model can accumulate errors throughout the
generation process. These errors become particularly problematic when arbitrary
guidance is applied to steer samples toward desired properties, which often
breaks sample fidelity. In this paper, we propose a general solution to address
the off-manifold phenomenon observed in diffusion models. Our approach
leverages a time predictor to estimate deviations from the desired data
manifold at each timestep, identifying that a larger time gap is associated
with reduced generation quality. We then design a novel guidance mechanism,
`Temporal Alignment Guidance' (TAG), attracting the samples back to the desired
manifold at every timestep during generation. Through extensive experiments, we
demonstrate that TAG consistently produces samples closely aligned with the
desired manifold at each timestep, leading to significant improvements in
generation quality across various downstream tasks.