TEDi: Temporär verschränkte Diffusion für die Synthese langfristiger Bewegungen
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Autoren: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Zusammenfassung
Die schrittweise Natur eines Diffusionsprozesses, der Proben in kleinen Inkrementen synthetisiert, stellt ein Schlüsselelement von Denoising Diffusion Probabilistic Models (DDPM) dar, die eine beispiellose Qualität in der Bildsynthese erreicht haben und kürzlich im Bereich der Bewegung untersucht wurden. In dieser Arbeit schlagen wir vor, das Konzept der graduellen Diffusion (die entlang einer Diffusionszeitachse operiert) auf die Zeitachse der Bewegungssequenz zu übertragen. Unsere zentrale Idee besteht darin, das DDPM-Framework zu erweitern, um eine zeitlich variierende Rauschunterdrückung zu unterstützen und dadurch die beiden Achsen zu verknüpfen. Mit unserer speziellen Formulierung entrauschen wir iterativ einen Bewegungspuffer, der eine Reihe von zunehmend verrauschten Posen enthält, wodurch automatisch ein beliebig langer Strom von Frames erzeugt wird. Bei einer stationären Diffusionszeitachse inkrementieren wir in jedem Diffusionsschritt nur die Zeitachse der Bewegung, sodass das Framework einen neuen, sauberen Frame erzeugt, der vom Anfang des Puffers entfernt wird, gefolgt von einem neu gezogenen Rauschvektor, der an ihn angehängt wird. Dieser neue Mechanismus ebnet den Weg für ein neues Framework zur Langzeit-Bewegungssynthese mit Anwendungen in der Charakteranimation und anderen Bereichen.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.