Trainingsfreie Steuerung in der Text-zu-Video-Generierung durch multimodale Planung und strukturierte Rauschinitialisierung

papers.abstract

Jüngste Fortschritte in Text-zu-Video (T2V)-Diffusionsmodellen haben die visuelle Qualität der generierten Videos erheblich verbessert. Dennoch fällt es selbst aktuellen T2V-Modellen schwer, Textbeschreibungen präzise zu folgen, insbesondere wenn die Eingabe eine genaue Steuerung von räumlichen Anordnungen oder Objektbahnen erfordert. Eine aktuelle Forschungsrichtung nutzt Layout-Guidance für T2V-Modelle, die eine Feinabstimmung oder iterative Manipulation der Aufmerksamkeitskarte während der Inferenzzeit erfordern. Dies erhöht den Speicherbedarf erheblich, was die Verwendung eines großen T2V-Modells als Backbone erschwert. Um dies zu adressieren, stellen wir Video-MSG vor, eine trainingsfreie Guidance-Methode für die T2V-Generierung, die auf multimodaler Planung und strukturierter Rauschinitialisierung basiert. Video-MSG besteht aus drei Schritten: In den ersten beiden Schritten erstellt Video-MSG einen Video-Sketch, einen feingranularen räumlich-zeitlichen Plan für das endgültige Video, der Hintergrund, Vordergrund und Objektbahnen in Form von Entwurfsvideobildern spezifiziert. Im letzten Schritt leitet Video-MSG ein nachgeschaltetes T2V-Diffusionsmodell mit dem Video-Sketch durch Rauschinversion und Entrauschen an. Bemerkenswerterweise benötigt Video-MSG weder eine Feinabstimmung noch eine Aufmerksamkeitsmanipulation mit zusätzlichem Speicher während der Inferenzzeit, was die Verwendung großer T2V-Modelle erleichtert. Video-MSG zeigt seine Wirksamkeit bei der Verbesserung der Textausrichtung mit mehreren T2V-Backbones (VideoCrafter2 und CogVideoX-5B) auf gängigen T2V-Generierungs-Benchmarks (T2VCompBench und VBench). Wir bieten umfassende Ablationsstudien zu Rauschinversionsraten, verschiedenen Hintergrundgeneratoren, Hintergrundobjekterkennung und Vordergrundobjektsegmentierung.

English

Recent advancements in text-to-video (T2V) diffusion models have significantly enhanced the visual quality of the generated videos. However, even recent T2V models find it challenging to follow text descriptions accurately, especially when the prompt requires accurate control of spatial layouts or object trajectories. A recent line of research uses layout guidance for T2V models that require fine-tuning or iterative manipulation of the attention map during inference time. This significantly increases the memory requirement, making it difficult to adopt a large T2V model as a backbone. To address this, we introduce Video-MSG, a training-free Guidance method for T2V generation based on Multimodal planning and Structured noise initialization. Video-MSG consists of three steps, where in the first two steps, Video-MSG creates Video Sketch, a fine-grained spatio-temporal plan for the final video, specifying background, foreground, and object trajectories, in the form of draft video frames. In the last step, Video-MSG guides a downstream T2V diffusion model with Video Sketch through noise inversion and denoising. Notably, Video-MSG does not need fine-tuning or attention manipulation with additional memory during inference time, making it easier to adopt large T2V models. Video-MSG demonstrates its effectiveness in enhancing text alignment with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V generation benchmarks (T2VCompBench and VBench). We provide comprehensive ablation studies about noise inversion ratio, different background generators, background object detection, and foreground object segmentation.

Trainingsfreie Steuerung in der Text-zu-Video-Generierung durch multimodale Planung und strukturierte Rauschinitialisierung

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

papers.abstract

Support