ChatPaper.aiChatPaper

TRIP: Временное остаточное обучение с предварительным изображением шума для моделей диффузии изображения в видео.

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

March 25, 2024
Авторы: Zhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao, Yang Cao, Tao Mei
cs.AI

Аннотация

Недавние достижения в генерации текста в видео продемонстрировали полезность мощных моделей диффузии. Тем не менее, проблема не является тривиальной при формировании моделей диффузии для анимации статического изображения (т.е. генерации видео изображения). Сложность возникает из-за того, что диффузионный процесс последовательных анимированных кадров должен не только сохранять верное выравнивание с заданным изображением, но и обеспечивать временную согласованность между смежными кадрами. Для устранения этого мы представляем TRIP, новый подход к диффузионной парадигме изображения в видео, который опирается на шум изображения, полученный из статического изображения, чтобы совместно запускать межкадровое реляционное рассуждение и облегчить согласованное временное моделирование с помощью обучения временных остатков. Технически, шум изображения получается сначала через одношаговый обратный процесс диффузии на основе как статического изображения, так и кодов латентных переменных зашумленного видео. Затем TRIP выполняет схему двойного пути, похожую на остаток, для прогнозирования шума: 1) прямой путь, который непосредственно принимает шум изображения как опорный шум каждого кадра для усиления выравнивания между первым кадром и последующими кадрами; 2) остаточный путь, который использует 3D-UNet над кодами латентных переменных зашумленного видео и статического изображения для обеспечения межкадрового реляционного рассуждения, тем самым облегчая обучение остаточного шума для каждого кадра. Более того, опорный и остаточный шум каждого кадра динамически объединяются с помощью механизма внимания для окончательной генерации видео. Обширные эксперименты на наборах данных WebVid-10M, DTDB и MSR-VTT демонстрируют эффективность нашего подхода TRIP для генерации видео изображений. Пожалуйста, посетите нашу страницу проекта по ссылке https://trip-i2v.github.io/TRIP/.
English
Recent advances in text-to-video generation have demonstrated the utility of powerful diffusion models. Nevertheless, the problem is not trivial when shaping diffusion models to animate static image (i.e., image-to-video generation). The difficulty originates from the aspect that the diffusion process of subsequent animated frames should not only preserve the faithful alignment with the given image but also pursue temporal coherence among adjacent frames. To alleviate this, we present TRIP, a new recipe of image-to-video diffusion paradigm that pivots on image noise prior derived from static image to jointly trigger inter-frame relational reasoning and ease the coherent temporal modeling via temporal residual learning. Technically, the image noise prior is first attained through one-step backward diffusion process based on both static image and noised video latent codes. Next, TRIP executes a residual-like dual-path scheme for noise prediction: 1) a shortcut path that directly takes image noise prior as the reference noise of each frame to amplify the alignment between the first frame and subsequent frames; 2) a residual path that employs 3D-UNet over noised video and static image latent codes to enable inter-frame relational reasoning, thereby easing the learning of the residual noise for each frame. Furthermore, both reference and residual noise of each frame are dynamically merged via attention mechanism for final video generation. Extensive experiments on WebVid-10M, DTDB and MSR-VTT datasets demonstrate the effectiveness of our TRIP for image-to-video generation. Please see our project page at https://trip-i2v.github.io/TRIP/.

Summary

AI-Generated Summary

PDF131December 15, 2024