Trainingsvrije begeleiding in tekst-naar-video-generatie via multimodale planning en gestructureerde ruisinitialisatie
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Auteurs: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-video (T2V) diffusiemodellen heeft de visuele kwaliteit van de gegenereerde video's aanzienlijk verbeterd. Toch vinden zelfs recente T2V-modellen het uitdagend om tekstbeschrijvingen nauwkeurig te volgen, vooral wanneer de prompt nauwkeurige controle van ruimtelijke lay-outs of objecttrajectories vereist. Een recente onderzoekslijn gebruikt lay-outbegeleiding voor T2V-modellen die fine-tuning of iteratieve manipulatie van de aandachtkaart tijdens de inferentietijd vereisen. Dit verhoogt de geheugenbehoefte aanzienlijk, waardoor het moeilijk wordt om een groot T2V-model als backbone te gebruiken. Om dit aan te pakken, introduceren we Video-MSG, een trainingsvrije begeleidingsmethode voor T2V-generatie gebaseerd op Multimodale planning en Gestructureerde ruisinitialisatie. Video-MSG bestaat uit drie stappen, waarbij in de eerste twee stappen Video-MSG een Video Schets maakt, een fijnmazig ruimtelijk-tijdelijk plan voor de uiteindelijke video, dat de achtergrond, voorgrond en objecttrajectories specificeert in de vorm van conceptvideoframes. In de laatste stap begeleidt Video-MSG een downstream T2V-diffusiemodel met de Video Schets door middel van ruisinversie en denoising. Opmerkelijk is dat Video-MSG geen fine-tuning of aandachtmanipulatie met extra geheugen tijdens de inferentietijd nodig heeft, waardoor het gemakkelijker wordt om grote T2V-modellen te gebruiken. Video-MSG toont zijn effectiviteit in het verbeteren van tekstuitlijning met meerdere T2V-backbones (VideoCrafter2 en CogVideoX-5B) op populaire T2V-generatiebenchmarks (T2VCompBench en VBench). We bieden uitgebreide ablatiestudies over ruisinversieverhouding, verschillende achtergrondgeneratoren, achtergrondobjectdetectie en voorgrondobjectsegmentatie.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary