Stable Video Infinity : Génération de vidéos de longueur infinie avec recyclage des erreurs
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
October 10, 2025
papers.authors: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI
papers.abstract
Nous proposons Stable Video Infinity (SVI), capable de générer des vidéos de longueur infinie avec une cohérence temporelle élevée, des transitions de scène plausibles et des histoires en streaming contrôlables. Alors que les méthodes existantes pour les longues vidéos tentent de réduire les erreurs accumulées via des techniques anti-dérive artisanales (par exemple, un planificateur de bruit modifié, l'ancrage de trames), elles restent limitées à une extrapolation basée sur une seule instruction, produisant des scènes homogènes avec des mouvements répétitifs. Nous identifions que le défi fondamental va au-delà de l'accumulation d'erreurs pour inclure une divergence critique entre l'hypothèse d'entraînement (l'accès à des données propres) et la réalité autoregressive au moment du test (le conditionnement sur des sorties auto-générées et sujettes à erreurs). Pour combler cet écart hypothétique, SVI intègre le Fine-Tuning par Recyclage d'Erreurs, un nouveau type d'entraînement efficace qui recycle les erreurs auto-générées du Transformer de Diffusion (DiT) en instructions de supervision, encourageant ainsi DiT à identifier et corriger activement ses propres erreurs. Cela est réalisé en injectant, collectant et stockant les erreurs via un recyclage en boucle fermée, apprenant autoregressivement à partir de retours d'erreurs injectées. Plus précisément, nous (i) injectons les erreurs historiques de DiT pour intervenir sur des entrées propres, simulant des trajectoires d'erreurs accumulées dans l'appariement de flux ; (ii) approximons efficacement les prédictions avec une intégration bidirectionnelle en une étape et calculons les erreurs avec des résidus ; (iii) stockons dynamiquement les erreurs dans une mémoire de rejeu à travers des pas de temps discrétisés, qui sont rééchantillonnés pour de nouvelles entrées. SVI est capable de prolonger des vidéos de quelques secondes à des durées infinies sans coût d'inférence supplémentaire, tout en restant compatible avec diverses conditions (par exemple, des flux audio, de squelette et de texte). Nous évaluons SVI sur trois benchmarks, incluant des configurations cohérentes, créatives et conditionnelles, vérifiant ainsi minutieusement sa polyvalence et son rôle de pointe.
English
We propose Stable Video Infinity (SVI) that is able to generate
infinite-length videos with high temporal consistency, plausible scene
transitions, and controllable streaming storylines. While existing long-video
methods attempt to mitigate accumulated errors via handcrafted anti-drifting
(e.g., modified noise scheduler, frame anchoring), they remain limited to
single-prompt extrapolation, producing homogeneous scenes with repetitive
motions. We identify that the fundamental challenge extends beyond error
accumulation to a critical discrepancy between the training assumption (seeing
clean data) and the test-time autoregressive reality (conditioning on
self-generated, error-prone outputs). To bridge this hypothesis gap, SVI
incorporates Error-Recycling Fine-Tuning, a new type of efficient training that
recycles the Diffusion Transformer (DiT)'s self-generated errors into
supervisory prompts, thereby encouraging DiT to actively identify and correct
its own errors. This is achieved by injecting, collecting, and banking errors
through closed-loop recycling, autoregressively learning from error-injected
feedback. Specifically, we (i) inject historical errors made by DiT to
intervene on clean inputs, simulating error-accumulated trajectories in flow
matching; (ii) efficiently approximate predictions with one-step bidirectional
integration and calculate errors with residuals; (iii) dynamically bank errors
into replay memory across discretized timesteps, which are resampled for new
input. SVI is able to scale videos from seconds to infinite durations with no
additional inference cost, while remaining compatible with diverse conditions
(e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks,
including consistent, creative, and conditional settings, thoroughly verifying
its versatility and state-of-the-art role.