TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Autores: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Resumen
La naturaleza gradual de un proceso de difusión que sintetiza muestras en pequeños incrementos constituye un componente clave de los Modelos Probabilísticos de Difusión con Eliminación de Ruido (DDPM, por sus siglas en inglés), los cuales han demostrado una calidad sin precedentes en la síntesis de imágenes y han sido recientemente explorados en el dominio del movimiento. En este trabajo, proponemos adaptar el concepto de difusión gradual (que opera a lo largo de un eje temporal de difusión) al eje temporal de la secuencia de movimiento. Nuestra idea principal es extender el marco de trabajo de los DDPM para admitir la eliminación de ruido temporalmente variable, entrelazando así ambos ejes. Utilizando nuestra formulación especial, eliminamos el ruido de manera iterativa en un búfer de movimiento que contiene un conjunto de poses con ruido creciente, lo cual produce de manera autorregresiva una secuencia de fotogramas de longitud arbitraria. Con un eje temporal de difusión estacionario, en cada paso de difusión incrementamos únicamente el eje temporal del movimiento, de modo que el marco de trabajo genera un nuevo fotograma limpio que se elimina del inicio del búfer, seguido de un nuevo vector de ruido que se añade al final. Este nuevo mecanismo abre el camino hacia un nuevo marco de trabajo para la síntesis de movimiento a largo plazo, con aplicaciones en la animación de personajes y otros dominios.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.