TEDi: Временнó-запутанная диффузия для синтеза долгосрочных движений
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis
July 27, 2023
Авторы: Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka
cs.AI
Аннотация
Постепенный характер процесса диффузии, который синтезирует образцы небольшими шагами, является ключевым элементом моделей вероятностной диффузии с удалением шума (Denoising Diffusion Probabilistic Models, DDPM), которые продемонстрировали беспрецедентное качество в синтезе изображений и недавно были исследованы в области движения. В данной работе мы предлагаем адаптировать концепцию постепенной диффузии (действующей вдоль оси времени диффузии) к временной оси последовательности движений. Наша ключевая идея заключается в расширении фреймворка DDPM для поддержки временно изменяющегося удаления шума, тем самым связывая две оси. Используя нашу специальную формулировку, мы итеративно удаляем шум из буфера движения, который содержит набор поз с возрастающим уровнем шума, что авторегрессивно создает произвольно длинный поток кадров. При стационарной оси времени диффузии на каждом шаге диффузии мы увеличиваем только временную ось движения, так что фреймворк создает новый, чистый кадр, который удаляется из начала буфера, за которым следует новый вектор шума, добавляемый в конец. Этот новый механизм открывает путь к новому фреймворку для долгосрочного синтеза движения с приложениями в анимации персонажей и других областях.
English
The gradual nature of a diffusion process that synthesizes samples in small
increments constitutes a key ingredient of Denoising Diffusion Probabilistic
Models (DDPM), which have presented unprecedented quality in image synthesis
and been recently explored in the motion domain. In this work, we propose to
adapt the gradual diffusion concept (operating along a diffusion time-axis)
into the temporal-axis of the motion sequence. Our key idea is to extend the
DDPM framework to support temporally varying denoising, thereby entangling the
two axes. Using our special formulation, we iteratively denoise a motion buffer
that contains a set of increasingly-noised poses, which auto-regressively
produces an arbitrarily long stream of frames. With a stationary diffusion
time-axis, in each diffusion step we increment only the temporal-axis of the
motion such that the framework produces a new, clean frame which is removed
from the beginning of the buffer, followed by a newly drawn noise vector that
is appended to it. This new mechanism paves the way towards a new framework for
long-term motion synthesis with applications to character animation and other
domains.