ChatPaper.aiChatPaper

Stable Video Infinity: 오류 재활용을 통한 무한 길이 비디오 생성

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

October 10, 2025
저자: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI

초록

우리는 높은 시간적 일관성, 그럴듯한 장면 전환, 그리고 제어 가능한 스트리밍 스토리라인을 통해 무한 길이의 비디오를 생성할 수 있는 Stable Video Infinity(SVI)를 제안합니다. 기존의 장편 비디오 생성 방법들은 수작업으로 만든 안티 드리프팅(예: 수정된 노이즈 스케줄러, 프레임 앵커링)을 통해 누적 오류를 완화하려고 시도하지만, 단일 프롬프트 외삽에 국한되어 반복적인 동작과 동질적인 장면을 생성하는 데 그칩니다. 우리는 근본적인 문제가 오류 누적을 넘어 훈련 가정(깨끗한 데이터를 보는 것)과 테스트 시점의 자기회귀적 현실(자체 생성된 오류가 포함된 출력에 조건을 거는 것) 사이의 중요한 불일치에 있음을 확인했습니다. 이 가설 간극을 해소하기 위해 SVI는 Diffusion Transformer(DiT)의 자체 생성 오류를 감독 프롬프트로 재활용하는 새로운 유형의 효율적인 훈련인 Error-Recycling Fine-Tuning을 도입했습니다. 이를 통해 DiT가 스스로 오류를 식별하고 수정하도록 장려합니다. 이는 폐쇄 루프 재활용을 통해 오류를 주입, 수집, 저장하고, 오류가 주입된 피드백으로부터 자기회귀적으로 학습함으로써 달성됩니다. 구체적으로, 우리는 (i) DiT가 만든 과거 오류를 깨끗한 입력에 주입하여 플로우 매칭에서 오류가 누적된 궤적을 시뮬레이션하고, (ii) 일단계 양방향 통합으로 예측을 효율적으로 근사화하고 잔차를 통해 오류를 계산하며, (iii) 이산화된 시간 단계에 걸쳐 오류를 동적으로 리플레이 메모리에 저장하여 새로운 입력에 재샘플링합니다. SVI는 추가적인 추론 비용 없이 비디오를 초 단위에서 무한한 지속 시간으로 확장할 수 있으며, 다양한 조건(예: 오디오, 스켈레톤, 텍스트 스트림)과 호환됩니다. 우리는 SVI를 일관성, 창의성, 조건부 설정을 포함한 세 가지 벤치마크에서 평가하여 그 다양성과 최첨단 역할을 철저히 검증했습니다.
English
We propose Stable Video Infinity (SVI) that is able to generate infinite-length videos with high temporal consistency, plausible scene transitions, and controllable streaming storylines. While existing long-video methods attempt to mitigate accumulated errors via handcrafted anti-drifting (e.g., modified noise scheduler, frame anchoring), they remain limited to single-prompt extrapolation, producing homogeneous scenes with repetitive motions. We identify that the fundamental challenge extends beyond error accumulation to a critical discrepancy between the training assumption (seeing clean data) and the test-time autoregressive reality (conditioning on self-generated, error-prone outputs). To bridge this hypothesis gap, SVI incorporates Error-Recycling Fine-Tuning, a new type of efficient training that recycles the Diffusion Transformer (DiT)'s self-generated errors into supervisory prompts, thereby encouraging DiT to actively identify and correct its own errors. This is achieved by injecting, collecting, and banking errors through closed-loop recycling, autoregressively learning from error-injected feedback. Specifically, we (i) inject historical errors made by DiT to intervene on clean inputs, simulating error-accumulated trajectories in flow matching; (ii) efficiently approximate predictions with one-step bidirectional integration and calculate errors with residuals; (iii) dynamically bank errors into replay memory across discretized timesteps, which are resampled for new input. SVI is able to scale videos from seconds to infinite durations with no additional inference cost, while remaining compatible with diverse conditions (e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks, including consistent, creative, and conditional settings, thoroughly verifying its versatility and state-of-the-art role.
PDF112October 14, 2025