TEDi: Tijdelijk Verstrengelde Diffusie voor Langetermijnbewegingssynthese
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Auteurs: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Samenvatting
Het geleidelijke karakter van een diffusieproces dat samples in kleine stappen synthetiseert, vormt een belangrijk ingrediënt van Denoising Diffusion Probabilistic Models (DDPM), die een ongekende kwaliteit hebben getoond in beeld-synthese en recentelijk zijn verkend in het domein van beweging. In dit werk stellen we voor om het concept van geleidelijke diffusie (dat werkt langs een diffusie-tijdsas) aan te passen naar de temporele as van de bewegingssequentie. Onze kernidee is om het DDPM-raamwerk uit te breiden om temporeel variërende denoising te ondersteunen, waardoor de twee assen met elkaar verweven raken. Met onze speciale formulering denoizen we iteratief een bewegingsbuffer die een reeks steeds meer verstoorde poses bevat, wat op autoregressieve wijze een willekeurig lange stroom van frames produceert. Met een stationaire diffusie-tijdsas verhogen we in elke diffusiestap alleen de temporele as van de beweging, zodat het raamwerk een nieuw, schoon frame produceert dat aan het begin van de buffer wordt verwijderd, gevolgd door een nieuw getrokken ruisvector die eraan wordt toegevoegd. Dit nieuwe mechanisme opent de weg naar een nieuw raamwerk voor langetermijnbewegingssynthese met toepassingen in karakteranimatie en andere domeinen.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.