Видеораспространение с учетом истории
History-Guided Video Diffusion
February 10, 2025
Авторы: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI
Аннотация
Метод руководства без классификатора (CFG) является ключевой техникой для улучшения условной генерации в моделях диффузии, обеспечивая более точное управление и повышая качество выборки. Естественно расширить эту технику на видео-диффузию, которая генерирует видео в зависимости от переменного количества контекстных кадров, совокупно называемых историей. Однако мы выявляем две ключевые проблемы при руководстве переменной длиной истории: архитектуры, поддерживающие только условное фиксированное размерное обучение, и эмпирическое наблюдение, что история в стиле CFG плохо справляется с отсевом. Для решения этой проблемы мы предлагаем Трансформер Диффузии Принуждения (DFoT), архитектуру видео-диффузии и теоретически обоснованную целевую функцию обучения, которые совместно позволяют условие на гибкое количество кадров истории. Затем мы представляем Руководство Историей, семейство методов руководства, уникально активируемых DFoT. Мы показываем, что его самая простая форма, ванильное руководство историей, уже значительно улучшает качество генерации видео и временную последовательность. Более продвинутый метод, руководство историей в разные моменты времени и частоты, дополнительно улучшает динамику движения, обеспечивает композиционную обобщенность для истории вне распределения и может стабильно создавать очень длинные видео. Веб-сайт: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional
generation in diffusion models, enabling more accurate control while enhancing
sample quality. It is natural to extend this technique to video diffusion,
which generates video conditioned on a variable number of context frames,
collectively referred to as history. However, we find two key challenges to
guiding with variable-length history: architectures that only support
fixed-size conditioning, and the empirical observation that CFG-style history
dropout performs poorly. To address this, we propose the Diffusion Forcing
Transformer (DFoT), a video diffusion architecture and theoretically grounded
training objective that jointly enable conditioning on a flexible number of
history frames. We then introduce History Guidance, a family of guidance
methods uniquely enabled by DFoT. We show that its simplest form, vanilla
history guidance, already significantly improves video generation quality and
temporal consistency. A more advanced method, history guidance across time and
frequency further enhances motion dynamics, enables compositional
generalization to out-of-distribution history, and can stably roll out
extremely long videos. Website: https://boyuan.space/history-guidanceSummary
AI-Generated Summary