Настройка-свободная генерация длинных видео с множеством событий через синхронизированное связанное сэмплирование

Аннотация

Хотя последние достижения в области диффузионных моделей для генерации видео из текста позволяют создавать высококачественные короткие видеоролики по одному запросу, генерация длинных видео, соответствующих реальному миру, за один проход остается сложной задачей из-за ограниченности данных и высоких вычислительных затрат. Для решения этой проблемы несколько работ предлагают подходы, не требующие тонкой настройки, а именно расширение существующих моделей для генерации длинных видео, в частности, с использованием нескольких запросов, что позволяет динамично и контролируемо изменять содержание. Однако эти методы в основном сосредоточены на обеспечении плавных переходов между соседними кадрами, что часто приводит к дрейфу содержания и постепенной потере семантической связности в более длинных последовательностях. Чтобы решить эту проблему, мы предлагаем Synchronized Coupled Sampling (SynCoS) — новый фреймворк для вывода, который синхронизирует пути денойзинга по всему видео, обеспечивая долгосрочную согласованность как между соседними, так и между удаленными кадрами. Наш подход сочетает две взаимодополняющие стратегии семплирования: обратное семплирование и семплирование на основе оптимизации, которые обеспечивают плавные локальные переходы и глобальную согласованность соответственно. Однако прямое чередование этих методов семплирования приводит к рассогласованию траекторий денойзинга, нарушая управление по запросу и вызывая непреднамеренные изменения содержания, поскольку они работают независимо. Для устранения этого SynCoS синхронизирует их через зафиксированный временной шаг и базовый шум, обеспечивая полностью связанное семплирование с согласованными путями денойзинга. Многочисленные эксперименты показывают, что SynCoS значительно улучшает генерацию длинных видео с несколькими событиями, достигая более плавных переходов и превосходной долгосрочной согласованности, превосходя предыдущие подходы как количественно, так и качественно.

English

While recent advancements in text-to-video diffusion models enable high-quality short video generation from a single prompt, generating real-world long videos in a single pass remains challenging due to limited data and high computational costs. To address this, several works propose tuning-free approaches, i.e., extending existing models for long video generation, specifically using multiple prompts to allow for dynamic and controlled content changes. However, these methods primarily focus on ensuring smooth transitions between adjacent frames, often leading to content drift and a gradual loss of semantic coherence over longer sequences. To tackle such an issue, we propose Synchronized Coupled Sampling (SynCoS), a novel inference framework that synchronizes denoising paths across the entire video, ensuring long-range consistency across both adjacent and distant frames. Our approach combines two complementary sampling strategies: reverse and optimization-based sampling, which ensure seamless local transitions and enforce global coherence, respectively. However, directly alternating between these samplings misaligns denoising trajectories, disrupting prompt guidance and introducing unintended content changes as they operate independently. To resolve this, SynCoS synchronizes them through a grounded timestep and a fixed baseline noise, ensuring fully coupled sampling with aligned denoising paths. Extensive experiments show that SynCoS significantly improves multi-event long video generation, achieving smoother transitions and superior long-range coherence, outperforming previous approaches both quantitatively and qualitatively.

Настройка-свободная генерация длинных видео с множеством событий через синхронизированное связанное сэмплирование

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

Аннотация

Support