Orientação de Alinhamento Temporal: Amostragem na Variedade em Modelos de Difusão
Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models
October 13, 2025
Autores: Youngrok Park, Hojung Jung, Sangmin Bae, Se-Young Yun
cs.AI
Resumo
Os modelos de difusão têm alcançado sucesso notável como modelos generativos. No entanto, mesmo um modelo bem treinado pode acumular erros ao longo do processo de geração. Esses erros tornam-se particularmente problemáticos quando uma orientação arbitrária é aplicada para direcionar as amostras em direção a propriedades desejadas, o que frequentemente compromete a fidelidade das amostras. Neste artigo, propomos uma solução geral para abordar o fenômeno de desvio da variedade observado em modelos de difusão. Nossa abordagem utiliza um preditor de tempo para estimar desvios da variedade de dados desejada em cada passo de tempo, identificando que um intervalo de tempo maior está associado a uma redução na qualidade da geração. Em seguida, projetamos um novo mecanismo de orientação, chamado `Orientação de Alinhamento Temporal' (TAG, na sigla em inglês), que atrai as amostras de volta à variedade desejada em cada passo de tempo durante a geração. Por meio de experimentos extensivos, demonstramos que o TAG produz consistentemente amostras alinhadas de perto com a variedade desejada em cada passo de tempo, resultando em melhorias significativas na qualidade da geração em várias tarefas subsequentes.
English
Diffusion models have achieved remarkable success as generative models.
However, even a well-trained model can accumulate errors throughout the
generation process. These errors become particularly problematic when arbitrary
guidance is applied to steer samples toward desired properties, which often
breaks sample fidelity. In this paper, we propose a general solution to address
the off-manifold phenomenon observed in diffusion models. Our approach
leverages a time predictor to estimate deviations from the desired data
manifold at each timestep, identifying that a larger time gap is associated
with reduced generation quality. We then design a novel guidance mechanism,
`Temporal Alignment Guidance' (TAG), attracting the samples back to the desired
manifold at every timestep during generation. Through extensive experiments, we
demonstrate that TAG consistently produces samples closely aligned with the
desired manifold at each timestep, leading to significant improvements in
generation quality across various downstream tasks.