TEDi: Difusão Temporalmente Entrelaçada para Síntese de Movimento de Longo Prazo
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Autores: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Resumo
A natureza gradual de um processo de difusão que sintetiza amostras em pequenos incrementos constitui um ingrediente fundamental dos Modelos Probabilísticos de Difusão com Remoção de Ruído (Denoising Diffusion Probabilistic Models - DDPM), os quais têm apresentado qualidade sem precedentes na síntese de imagens e, recentemente, foram explorados no domínio do movimento. Neste trabalho, propomos adaptar o conceito de difusão gradual (que opera ao longo de um eixo temporal de difusão) para o eixo temporal da sequência de movimento. Nossa ideia central é estender o framework DDPM para suportar a remoção de ruído temporalmente variável, entrelaçando assim os dois eixos. Utilizando nossa formulação especial, iterativamente removemos o ruído de um buffer de movimento que contém um conjunto de poses progressivamente ruidosas, o que produz de forma autorregressiva um fluxo arbitrariamente longo de quadros. Com um eixo temporal de difusão estacionário, em cada etapa de difusão incrementamos apenas o eixo temporal do movimento, de modo que o framework produz um novo quadro limpo, que é removido do início do buffer, seguido por um novo vetor de ruído que é anexado ao final. Esse novo mecanismo abre caminho para um novo framework de síntese de movimento de longo prazo, com aplicações em animação de personagens e outros domínios.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.