Настройка-свободная генерация длинных видео с множеством событий через синхронизированное связанное сэмплирование
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling
March 11, 2025
Авторы: Subin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin
cs.AI
Аннотация
Хотя последние достижения в области диффузионных моделей для генерации видео из текста позволяют создавать высококачественные короткие видеоролики по одному запросу, генерация длинных видео, соответствующих реальному миру, за один проход остается сложной задачей из-за ограниченности данных и высоких вычислительных затрат. Для решения этой проблемы несколько работ предлагают подходы, не требующие тонкой настройки, а именно расширение существующих моделей для генерации длинных видео, в частности, с использованием нескольких запросов, что позволяет динамично и контролируемо изменять содержание. Однако эти методы в основном сосредоточены на обеспечении плавных переходов между соседними кадрами, что часто приводит к дрейфу содержания и постепенной потере семантической связности в более длинных последовательностях. Чтобы решить эту проблему, мы предлагаем Synchronized Coupled Sampling (SynCoS) — новый фреймворк для вывода, который синхронизирует пути денойзинга по всему видео, обеспечивая долгосрочную согласованность как между соседними, так и между удаленными кадрами. Наш подход сочетает две взаимодополняющие стратегии семплирования: обратное семплирование и семплирование на основе оптимизации, которые обеспечивают плавные локальные переходы и глобальную согласованность соответственно. Однако прямое чередование этих методов семплирования приводит к рассогласованию траекторий денойзинга, нарушая управление по запросу и вызывая непреднамеренные изменения содержания, поскольку они работают независимо. Для устранения этого SynCoS синхронизирует их через зафиксированный временной шаг и базовый шум, обеспечивая полностью связанное семплирование с согласованными путями денойзинга. Многочисленные эксперименты показывают, что SynCoS значительно улучшает генерацию длинных видео с несколькими событиями, достигая более плавных переходов и превосходной долгосрочной согласованности, превосходя предыдущие подходы как количественно, так и качественно.
English
While recent advancements in text-to-video diffusion models enable
high-quality short video generation from a single prompt, generating real-world
long videos in a single pass remains challenging due to limited data and high
computational costs. To address this, several works propose tuning-free
approaches, i.e., extending existing models for long video generation,
specifically using multiple prompts to allow for dynamic and controlled content
changes. However, these methods primarily focus on ensuring smooth transitions
between adjacent frames, often leading to content drift and a gradual loss of
semantic coherence over longer sequences. To tackle such an issue, we propose
Synchronized Coupled Sampling (SynCoS), a novel inference framework that
synchronizes denoising paths across the entire video, ensuring long-range
consistency across both adjacent and distant frames. Our approach combines two
complementary sampling strategies: reverse and optimization-based sampling,
which ensure seamless local transitions and enforce global coherence,
respectively. However, directly alternating between these samplings misaligns
denoising trajectories, disrupting prompt guidance and introducing unintended
content changes as they operate independently. To resolve this, SynCoS
synchronizes them through a grounded timestep and a fixed baseline noise,
ensuring fully coupled sampling with aligned denoising paths. Extensive
experiments show that SynCoS significantly improves multi-event long video
generation, achieving smoother transitions and superior long-range coherence,
outperforming previous approaches both quantitatively and qualitatively.Summary
AI-Generated Summary