ChatPaper.aiChatPaper

딥 싱크와 참여적 압축을 활용한 학습 없이 가능한 장편 비디오 생성: 딥 포싱

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

December 4, 2025
저자: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim
cs.AI

초록

자동회귀 비디오 확산 모델의 최근 발전으로 실시간 프레임 스트리밍이 가능해졌지만, 기존 솔루션들은 여전히 시간적 반복, 드리프트, 모션 감속 문제를 겪고 있습니다. 우리는 StreamingLLM 스타일의 어텐션 싱크(attention sink)를 비디오 확산 모델에 단순 적용할 경우 화질 저하와 모션 정체가 발생함을 확인했습니다. 이를 극복하기 위해 파인튜닝 없이도 이러한 문제를 해결하는 두 가지 학습 불필요 메커니즘인 Deep Forcing을 소개합니다. 구체적으로, 1) Deep Sink는 슬라이딩 윈도우의 절반을 영구적인 싱크 토큰에 할당하고 이들의 시간적 RoPE 위상을 현재 타임라인에 재정렬하여 긴 롤아웃 동안 전역 컨텍스트를 안정화합니다. 2) Participative Compression는 최근 어텐션에 활발히 참여하는 토큰만 보존하고 중복 및 열화된 기록은 안전하게 제거하는 중요도 인식 KV 캐시 프루닝을 수행하여 분포 외 길이 생성 시 오류 누적을 최소화합니다. 이러한 구성 요소들이 결합되어 12배 이상의 외삽(예: 5초 학습으로 60초 이상 생성)이 가능하며, LongLive보다 우수한 화질, RollingForcing보다 우수한 미적 품질, 전반적인 일관성 유지, 그리고 동적 정도에서의 상당한 향상을 실시간 생성 속도를 유지하면서 달성합니다. 우리의 결과는 학습 불필요 KV 캐시 관리가 자동회귀적 장편 비디오 생성 스트리밍에서 학습 기반 접근법을 능가하거나 그에 버금갈 수 있음을 입증합니다.
English
Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.
PDF21December 6, 2025