TEDi: Temporär verschränkte Diffusion für die Synthese langfristiger Bewegungen

papers.abstract

Die schrittweise Natur eines Diffusionsprozesses, der Proben in kleinen Inkrementen synthetisiert, stellt ein Schlüsselelement von Denoising Diffusion Probabilistic Models (DDPM) dar, die eine beispiellose Qualität in der Bildsynthese erreicht haben und kürzlich im Bereich der Bewegung untersucht wurden. In dieser Arbeit schlagen wir vor, das Konzept der graduellen Diffusion (die entlang einer Diffusionszeitachse operiert) auf die Zeitachse der Bewegungssequenz zu übertragen. Unsere zentrale Idee besteht darin, das DDPM-Framework zu erweitern, um eine zeitlich variierende Rauschunterdrückung zu unterstützen und dadurch die beiden Achsen zu verknüpfen. Mit unserer speziellen Formulierung entrauschen wir iterativ einen Bewegungspuffer, der eine Reihe von zunehmend verrauschten Posen enthält, wodurch automatisch ein beliebig langer Strom von Frames erzeugt wird. Bei einer stationären Diffusionszeitachse inkrementieren wir in jedem Diffusionsschritt nur die Zeitachse der Bewegung, sodass das Framework einen neuen, sauberen Frame erzeugt, der vom Anfang des Puffers entfernt wird, gefolgt von einem neu gezogenen Rauschvektor, der an ihn angehängt wird. Dieser neue Mechanismus ebnet den Weg für ein neues Framework zur Langzeit-Bewegungssynthese mit Anwendungen in der Charakteranimation und anderen Bereichen.

English

The gradual nature of a diffusion process that synthesizes samples in small increments constitutes a key ingredient of Denoising Diffusion Probabilistic Models (DDPM), which have presented unprecedented quality in image synthesis and been recently explored in the motion domain. In this work, we propose to adapt the gradual diffusion concept (operating along a diffusion time-axis) into the temporal-axis of the motion sequence. Our key idea is to extend the DDPM framework to support temporally varying denoising, thereby entangling the two axes. Using our special formulation, we iteratively denoise a motion buffer that contains a set of increasingly-noised poses, which auto-regressively produces an arbitrarily long stream of frames. With a stationary diffusion time-axis, in each diffusion step we increment only the temporal-axis of the motion such that the framework produces a new, clean frame which is removed from the beginning of the buffer, followed by a newly drawn noise vector that is appended to it. This new mechanism paves the way towards a new framework for long-term motion synthesis with applications to character animation and other domains.

TEDi: Temporär verschränkte Diffusion für die Synthese langfristiger Bewegungen

TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

papers.abstract

Support