ChatPaper.aiChatPaper

Generazione di Video Lunghi Multi-Evento senza Ottimizzazione tramite Campionamento Accoppiato Sincronizzato

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

March 11, 2025
Autori: Subin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin
cs.AI

Abstract

Sebbene i recenti progressi nei modelli di diffusione testo-video consentano la generazione di video brevi di alta qualità a partire da un singolo prompt, la generazione di video lunghi del mondo reale in un'unica passata rimane una sfida a causa della limitata disponibilità di dati e degli elevati costi computazionali. Per affrontare questo problema, diversi lavori propongono approcci senza necessità di tuning, ovvero estendono i modelli esistenti per la generazione di video lunghi, utilizzando in particolare più prompt per consentire cambiamenti di contenuto dinamici e controllati. Tuttavia, questi metodi si concentrano principalmente sull'assicurare transizioni fluide tra frame adiacenti, spesso portando a una deriva del contenuto e a una graduale perdita di coerenza semantica su sequenze più lunghe. Per risolvere questo problema, proponiamo Synchronized Coupled Sampling (SynCoS), un nuovo framework di inferenza che sincronizza i percorsi di denoising lungo l'intero video, garantendo coerenza a lungo raggio sia tra frame adiacenti che distanti. Il nostro approccio combina due strategie di campionamento complementari: il campionamento inverso e quello basato su ottimizzazione, che assicurano transizioni locali fluide e impongono coerenza globale, rispettivamente. Tuttavia, alternare direttamente tra questi campionamenti disallinea le traiettorie di denoising, interrompendo la guida del prompt e introducendo cambiamenti di contenuto non intenzionali poiché operano in modo indipendente. Per risolvere questo, SynCoS li sincronizza attraverso un timestep ancorato e un rumore di base fisso, garantendo un campionamento completamente accoppiato con percorsi di denoising allineati. Esperimenti estensivi dimostrano che SynCoS migliora significativamente la generazione di video lunghi con più eventi, ottenendo transizioni più fluide e una coerenza a lungo raggio superiore, superando approcci precedenti sia quantitativamente che qualitativamente.
English
While recent advancements in text-to-video diffusion models enable high-quality short video generation from a single prompt, generating real-world long videos in a single pass remains challenging due to limited data and high computational costs. To address this, several works propose tuning-free approaches, i.e., extending existing models for long video generation, specifically using multiple prompts to allow for dynamic and controlled content changes. However, these methods primarily focus on ensuring smooth transitions between adjacent frames, often leading to content drift and a gradual loss of semantic coherence over longer sequences. To tackle such an issue, we propose Synchronized Coupled Sampling (SynCoS), a novel inference framework that synchronizes denoising paths across the entire video, ensuring long-range consistency across both adjacent and distant frames. Our approach combines two complementary sampling strategies: reverse and optimization-based sampling, which ensure seamless local transitions and enforce global coherence, respectively. However, directly alternating between these samplings misaligns denoising trajectories, disrupting prompt guidance and introducing unintended content changes as they operate independently. To resolve this, SynCoS synchronizes them through a grounded timestep and a fixed baseline noise, ensuring fully coupled sampling with aligned denoising paths. Extensive experiments show that SynCoS significantly improves multi-event long video generation, achieving smoother transitions and superior long-range coherence, outperforming previous approaches both quantitatively and qualitatively.
PDF272March 12, 2025