TEDi: Diffusione Temporalmente Intrecciata per la Sintesi di Movimenti a Lungo Termine
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Autori: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Abstract
La natura graduale di un processo di diffusione che sintetizza campioni in piccoli incrementi costituisce un ingrediente chiave dei Modelli Probabilistici di Diffusione Denoising (DDPM), che hanno dimostrato una qualità senza precedenti nella sintesi di immagini e sono stati recentemente esplorati nel dominio del movimento. In questo lavoro, proponiamo di adattare il concetto di diffusione graduale (che opera lungo un asse temporale di diffusione) all'asse temporale della sequenza di movimento. La nostra idea chiave è estendere il framework DDPM per supportare il denoising temporalmente variabile, intrecciando così i due assi. Utilizzando la nostra formulazione speciale, denoisiamo iterativamente un buffer di movimento che contiene un insieme di pose con rumore crescente, producendo in modo auto-regressivo un flusso arbitrariamente lungo di frame. Con un asse temporale di diffusione stazionario, in ogni passo di diffusione incrementiamo solo l'asse temporale del movimento, in modo che il framework produca un nuovo frame pulito che viene rimosso dall'inizio del buffer, seguito da un nuovo vettore di rumore che viene aggiunto alla fine. Questo nuovo meccanismo apre la strada verso un nuovo framework per la sintesi di movimento a lungo termine, con applicazioni nell'animazione di personaggi e in altri domini.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.