ChatPaper.aiChatPaper

Geschichtsgesteuerte Videoverbreitung

History-Guided Video Diffusion

February 10, 2025
Autoren: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI

Zusammenfassung

Die klassifiziererfreie Führung (CFG) ist eine Schlüsseltechnik zur Verbesserung der bedingten Generierung in Diffusionsmodellen, die eine genauere Steuerung ermöglicht und die Qualität der Proben verbessert. Es ist naheliegend, diese Technik auf die Video-Diffusion zu erweitern, die Videos unter der Bedingung einer variablen Anzahl von Kontextbildern erzeugt, die zusammen als Historie bezeichnet werden. Wir stoßen jedoch auf zwei Hauptprobleme bei der Führung mit einer Historie variabler Länge: Architekturen, die nur eine Konditionierung fester Größe unterstützen, und die empirische Beobachtung, dass die CFG-ähnliche Historienauslassung schlechte Leistungen erbringt. Um dies zu lösen, schlagen wir den Diffusion Forcing Transformer (DFoT) vor, eine Video-Diffusionsarchitektur und ein theoretisch fundiertes Trainingsziel, die es gemeinsam ermöglichen, eine flexible Anzahl von Historienbildern zu konditionieren. Anschließend führen wir die Historienführung ein, eine Familie von Führungsmethoden, die durch DFoT einzigartig ermöglicht werden. Wir zeigen, dass bereits ihre einfachste Form, die Vanille-Historienführung, die Qualität der Videoerzeugung und die zeitliche Konsistenz signifikant verbessert. Eine fortgeschrittenere Methode, die Historienführung über Zeit und Frequenz hinweg, verbessert die Bewegungsdynamik weiter, ermöglicht eine zusammengesetzte Verallgemeinerung auf Historien außerhalb der Verteilung und kann extrem lange Videos stabil ausrollen. Webseite: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

Summary

AI-Generated Summary

PDF122February 11, 2025