ChatPaper.aiChatPaper

Difusión de Video Guiada por Historial

History-Guided Video Diffusion

February 10, 2025
Autores: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI

Resumen

La orientación sin clasificador (CFG, por sus siglas en inglés) es una técnica clave para mejorar la generación condicional en modelos de difusión, permitiendo un control más preciso al tiempo que mejora la calidad de las muestras. Es natural extender esta técnica a la difusión de video, que genera video condicionado a un número variable de fotogramas de contexto, referidos colectivamente como historial. Sin embargo, encontramos dos desafíos clave al guiar con historiales de longitud variable: arquitecturas que solo admiten condicionamiento de tamaño fijo y la observación empírica de que el abandono de historial al estilo CFG tiene un rendimiento deficiente. Para abordar esto, proponemos el Transformador de Forzado de Difusión (DFoT), una arquitectura de difusión de video y un objetivo de entrenamiento fundamentado teóricamente que permiten conjuntamente el condicionamiento en un número flexible de fotogramas de historial. Luego presentamos la Orientación de Historial, una familia de métodos de orientación habilitados de manera única por DFoT. Mostramos que su forma más simple, la orientación de historial básica, ya mejora significativamente la calidad de generación de video y la consistencia temporal. Un método más avanzado, la orientación de historial a lo largo del tiempo y la frecuencia, mejora aún más la dinámica del movimiento, permite la generalización compositiva a historiales fuera de distribución y puede desplegar de manera estable videos extremadamente largos. Sitio web: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

Summary

AI-Generated Summary

PDF122February 11, 2025