Stable Video Infinity: 오류 재활용을 통한 무한 길이 비디오 생성
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
October 10, 2025
저자: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI
초록
우리는 높은 시간적 일관성, 그럴듯한 장면 전환, 그리고 제어 가능한 스트리밍 스토리라인을 통해 무한 길이의 비디오를 생성할 수 있는 Stable Video Infinity(SVI)를 제안합니다. 기존의 장편 비디오 생성 방법들은 수작업으로 만든 안티 드리프팅(예: 수정된 노이즈 스케줄러, 프레임 앵커링)을 통해 누적 오류를 완화하려고 시도하지만, 단일 프롬프트 외삽에 국한되어 반복적인 동작과 동질적인 장면을 생성하는 데 그칩니다. 우리는 근본적인 문제가 오류 누적을 넘어 훈련 가정(깨끗한 데이터를 보는 것)과 테스트 시점의 자기회귀적 현실(자체 생성된 오류가 포함된 출력에 조건을 거는 것) 사이의 중요한 불일치에 있음을 확인했습니다. 이 가설 간극을 해소하기 위해 SVI는 Diffusion Transformer(DiT)의 자체 생성 오류를 감독 프롬프트로 재활용하는 새로운 유형의 효율적인 훈련인 Error-Recycling Fine-Tuning을 도입했습니다. 이를 통해 DiT가 스스로 오류를 식별하고 수정하도록 장려합니다. 이는 폐쇄 루프 재활용을 통해 오류를 주입, 수집, 저장하고, 오류가 주입된 피드백으로부터 자기회귀적으로 학습함으로써 달성됩니다. 구체적으로, 우리는 (i) DiT가 만든 과거 오류를 깨끗한 입력에 주입하여 플로우 매칭에서 오류가 누적된 궤적을 시뮬레이션하고, (ii) 일단계 양방향 통합으로 예측을 효율적으로 근사화하고 잔차를 통해 오류를 계산하며, (iii) 이산화된 시간 단계에 걸쳐 오류를 동적으로 리플레이 메모리에 저장하여 새로운 입력에 재샘플링합니다. SVI는 추가적인 추론 비용 없이 비디오를 초 단위에서 무한한 지속 시간으로 확장할 수 있으며, 다양한 조건(예: 오디오, 스켈레톤, 텍스트 스트림)과 호환됩니다. 우리는 SVI를 일관성, 창의성, 조건부 설정을 포함한 세 가지 벤치마크에서 평가하여 그 다양성과 최첨단 역할을 철저히 검증했습니다.
English
We propose Stable Video Infinity (SVI) that is able to generate
infinite-length videos with high temporal consistency, plausible scene
transitions, and controllable streaming storylines. While existing long-video
methods attempt to mitigate accumulated errors via handcrafted anti-drifting
(e.g., modified noise scheduler, frame anchoring), they remain limited to
single-prompt extrapolation, producing homogeneous scenes with repetitive
motions. We identify that the fundamental challenge extends beyond error
accumulation to a critical discrepancy between the training assumption (seeing
clean data) and the test-time autoregressive reality (conditioning on
self-generated, error-prone outputs). To bridge this hypothesis gap, SVI
incorporates Error-Recycling Fine-Tuning, a new type of efficient training that
recycles the Diffusion Transformer (DiT)'s self-generated errors into
supervisory prompts, thereby encouraging DiT to actively identify and correct
its own errors. This is achieved by injecting, collecting, and banking errors
through closed-loop recycling, autoregressively learning from error-injected
feedback. Specifically, we (i) inject historical errors made by DiT to
intervene on clean inputs, simulating error-accumulated trajectories in flow
matching; (ii) efficiently approximate predictions with one-step bidirectional
integration and calculate errors with residuals; (iii) dynamically bank errors
into replay memory across discretized timesteps, which are resampled for new
input. SVI is able to scale videos from seconds to infinite durations with no
additional inference cost, while remaining compatible with diverse conditions
(e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks,
including consistent, creative, and conditional settings, thoroughly verifying
its versatility and state-of-the-art role.