TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo

Resumen

La naturaleza gradual de un proceso de difusión que sintetiza muestras en pequeños incrementos constituye un componente clave de los Modelos Probabilísticos de Difusión con Eliminación de Ruido (DDPM, por sus siglas en inglés), los cuales han demostrado una calidad sin precedentes en la síntesis de imágenes y han sido recientemente explorados en el dominio del movimiento. En este trabajo, proponemos adaptar el concepto de difusión gradual (que opera a lo largo de un eje temporal de difusión) al eje temporal de la secuencia de movimiento. Nuestra idea principal es extender el marco de trabajo de los DDPM para admitir la eliminación de ruido temporalmente variable, entrelazando así ambos ejes. Utilizando nuestra formulación especial, eliminamos el ruido de manera iterativa en un búfer de movimiento que contiene un conjunto de poses con ruido creciente, lo cual produce de manera autorregresiva una secuencia de fotogramas de longitud arbitraria. Con un eje temporal de difusión estacionario, en cada paso de difusión incrementamos únicamente el eje temporal del movimiento, de modo que el marco de trabajo genera un nuevo fotograma limpio que se elimina del inicio del búfer, seguido de un nuevo vector de ruido que se añade al final. Este nuevo mecanismo abre el camino hacia un nuevo marco de trabajo para la síntesis de movimiento a largo plazo, con aplicaciones en la animación de personajes y otros dominios.

English

The gradual nature of a diffusion process that synthesizes samples in small increments constitutes a key ingredient of Denoising Diffusion Probabilistic Models (DDPM), which have presented unprecedented quality in image synthesis and been recently explored in the motion domain. In this work, we propose to adapt the gradual diffusion concept (operating along a diffusion time-axis) into the temporal-axis of the motion sequence. Our key idea is to extend the DDPM framework to support temporally varying denoising, thereby entangling the two axes. Using our special formulation, we iteratively denoise a motion buffer that contains a set of increasingly-noised poses, which auto-regressively produces an arbitrarily long stream of frames. With a stationary diffusion time-axis, in each diffusion step we increment only the temporal-axis of the motion such that the framework produces a new, clean frame which is removed from the beginning of the buffer, followed by a newly drawn noise vector that is appended to it. This new mechanism paves the way towards a new framework for long-term motion synthesis with applications to character animation and other domains.

TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo

TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Resumen

Support