TEDi : Diffusion à enchevêtrement temporel pour la synthèse de mouvements à long terme
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Auteurs: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Résumé
La nature progressive d'un processus de diffusion qui synthétise des échantillons par petits incréments constitue un élément clé des Modèles de Diffusion Probabiliste de Débruitage (Denoising Diffusion Probabilistic Models, DDPM), qui ont démontré une qualité sans précédent en synthèse d'images et ont récemment été explorés dans le domaine du mouvement. Dans ce travail, nous proposons d'adapter le concept de diffusion progressive (opérant le long d'un axe temporel de diffusion) à l'axe temporel de la séquence de mouvement. Notre idée principale est d'étendre le cadre des DDPM pour supporter un débruitage variant temporellement, entrelaçant ainsi les deux axes. Grâce à notre formulation spéciale, nous débruitons itérativement un tampon de mouvement contenant un ensemble de poses de plus en plus bruitées, produisant de manière auto-régressive un flux de frames arbitrairement long. Avec un axe temporel de diffusion stationnaire, à chaque étape de diffusion, nous incrémentons uniquement l'axe temporel du mouvement, de sorte que le cadre produit une nouvelle frame propre qui est retirée du début du tampon, suivie d'un nouveau vecteur de bruit qui y est ajouté. Ce nouveau mécanisme ouvre la voie à un cadre innovant pour la synthèse de mouvement à long terme, avec des applications dans l'animation de personnages et d'autres domaines.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.