Бесплатное управление в генерации видео из текста с помощью мультимодального планирования и структурированной инициализации шума
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Авторы: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Аннотация
Последние достижения в области диффузионных моделей для преобразования текста в видео (T2V) значительно улучшили визуальное качество генерируемых видеороликов. Однако даже современные T2V-модели испытывают трудности с точным следованием текстовым описаниям, особенно когда запрос требует точного управления пространственной композицией или траекториями объектов. Недавние исследования предлагают использовать управление композицией для T2V-моделей, что требует тонкой настройки или итеративного манипулирования картами внимания во время вывода. Это значительно увеличивает требования к памяти, что затрудняет использование крупных T2V-моделей в качестве основы. Для решения этой проблемы мы представляем Video-MSG — метод управления генерацией T2V без необходимости обучения, основанный на мультимодальном планировании и структурированной инициализации шума. Video-MSG состоит из трех этапов: на первых двух этапах создается Video Sketch — детализированный пространственно-временной план для финального видео, определяющий фон, передний план и траектории объектов в виде черновых кадров. На последнем этапе Video-MSG направляет работу базовой T2V-диффузионной модели с помощью Video Sketch через инверсию шума и денойзинг. Важно отметить, что Video-MSG не требует тонкой настройки или манипуляций с вниманием, что исключает дополнительные затраты памяти во время вывода и упрощает использование крупных T2V-моделей. Video-MSG демонстрирует свою эффективность в улучшении соответствия тексту при работе с несколькими T2V-моделями (VideoCrafter2 и CogVideoX-5B) на популярных бенчмарках для генерации видео (T2VCompBench и VBench). Мы проводим всесторонние исследования влияния параметров, таких как коэффициент инверсии шума, различные генераторы фона, детекция объектов на фоне и сегментация объектов на переднем плане.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary