ChatPaper.aiChatPaper

동기화된 결합 샘플링을 통한 튜닝 불필요 다중 이벤트 장편 비디오 생성

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

March 11, 2025
저자: Subin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin
cs.AI

초록

최근 텍스트-투-비디오 확산 모델의 발전으로 단일 프롬프트에서 고품질의 짧은 비디오를 생성할 수 있게 되었지만, 실제 세계의 긴 비디오를 단일 패스로 생성하는 것은 데이터의 한계와 높은 계산 비용으로 인해 여전히 어려운 과제로 남아 있습니다. 이를 해결하기 위해 여러 연구에서는 튜닝이 필요 없는 접근 방식을 제안하며, 즉 기존 모델을 확장하여 긴 비디오 생성을 가능하게 하고, 특히 다중 프롬프트를 사용하여 동적이고 제어된 콘텐츠 변경을 허용합니다. 그러나 이러한 방법들은 주로 인접 프레임 간의 원활한 전환을 보장하는 데 초점을 맞추어, 종종 콘텐츠 드리프트와 더 긴 시퀀스에서의 의미적 일관성의 점진적인 손실을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 동기화된 결합 샘플링(SynCoS)이라는 새로운 추론 프레임워크를 제안합니다. 이 프레임워크는 전체 비디오에 걸쳐 디노이징 경로를 동기화하여 인접 및 먼 프레임 간의 장거리 일관성을 보장합니다. 우리의 접근 방식은 두 가지 상호 보완적인 샘플링 전략을 결합합니다: 역방향 샘플링과 최적화 기반 샘플링으로, 각각 원활한 지역 전환과 글로벌 일관성을 강화합니다. 그러나 이러한 샘플링을 직접 번갈아 사용하면 디노이징 궤적이 어긋나 프롬프트 지침을 방해하고 독립적으로 작동함으로써 의도하지 않은 콘텐츠 변경을 초래할 수 있습니다. 이를 해결하기 위해, SynCoS는 고정된 기준 노이즈와 접지된 타임스텝을 통해 이를 동기화하여 정렬된 디노이징 경로를 가진 완전히 결합된 샘플링을 보장합니다. 광범위한 실험을 통해 SynCoS가 다중 이벤트 긴 비디오 생성에서 상당한 개선을 이루어, 더 원활한 전환과 우수한 장거리 일관성을 달성하며, 이전 접근 방식들을 양적 및 질적으로 능가함을 보여줍니다.
English
While recent advancements in text-to-video diffusion models enable high-quality short video generation from a single prompt, generating real-world long videos in a single pass remains challenging due to limited data and high computational costs. To address this, several works propose tuning-free approaches, i.e., extending existing models for long video generation, specifically using multiple prompts to allow for dynamic and controlled content changes. However, these methods primarily focus on ensuring smooth transitions between adjacent frames, often leading to content drift and a gradual loss of semantic coherence over longer sequences. To tackle such an issue, we propose Synchronized Coupled Sampling (SynCoS), a novel inference framework that synchronizes denoising paths across the entire video, ensuring long-range consistency across both adjacent and distant frames. Our approach combines two complementary sampling strategies: reverse and optimization-based sampling, which ensure seamless local transitions and enforce global coherence, respectively. However, directly alternating between these samplings misaligns denoising trajectories, disrupting prompt guidance and introducing unintended content changes as they operate independently. To resolve this, SynCoS synchronizes them through a grounded timestep and a fixed baseline noise, ensuring fully coupled sampling with aligned denoising paths. Extensive experiments show that SynCoS significantly improves multi-event long video generation, achieving smoother transitions and superior long-range coherence, outperforming previous approaches both quantitatively and qualitatively.

Summary

AI-Generated Summary

PDF262March 12, 2025