ChatPaper.aiChatPaper

Stable Video Infinity : Génération de vidéos de longueur infinie avec recyclage des erreurs

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

October 10, 2025
papers.authors: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI

papers.abstract

Nous proposons Stable Video Infinity (SVI), capable de générer des vidéos de longueur infinie avec une cohérence temporelle élevée, des transitions de scène plausibles et des histoires en streaming contrôlables. Alors que les méthodes existantes pour les longues vidéos tentent de réduire les erreurs accumulées via des techniques anti-dérive artisanales (par exemple, un planificateur de bruit modifié, l'ancrage de trames), elles restent limitées à une extrapolation basée sur une seule instruction, produisant des scènes homogènes avec des mouvements répétitifs. Nous identifions que le défi fondamental va au-delà de l'accumulation d'erreurs pour inclure une divergence critique entre l'hypothèse d'entraînement (l'accès à des données propres) et la réalité autoregressive au moment du test (le conditionnement sur des sorties auto-générées et sujettes à erreurs). Pour combler cet écart hypothétique, SVI intègre le Fine-Tuning par Recyclage d'Erreurs, un nouveau type d'entraînement efficace qui recycle les erreurs auto-générées du Transformer de Diffusion (DiT) en instructions de supervision, encourageant ainsi DiT à identifier et corriger activement ses propres erreurs. Cela est réalisé en injectant, collectant et stockant les erreurs via un recyclage en boucle fermée, apprenant autoregressivement à partir de retours d'erreurs injectées. Plus précisément, nous (i) injectons les erreurs historiques de DiT pour intervenir sur des entrées propres, simulant des trajectoires d'erreurs accumulées dans l'appariement de flux ; (ii) approximons efficacement les prédictions avec une intégration bidirectionnelle en une étape et calculons les erreurs avec des résidus ; (iii) stockons dynamiquement les erreurs dans une mémoire de rejeu à travers des pas de temps discrétisés, qui sont rééchantillonnés pour de nouvelles entrées. SVI est capable de prolonger des vidéos de quelques secondes à des durées infinies sans coût d'inférence supplémentaire, tout en restant compatible avec diverses conditions (par exemple, des flux audio, de squelette et de texte). Nous évaluons SVI sur trois benchmarks, incluant des configurations cohérentes, créatives et conditionnelles, vérifiant ainsi minutieusement sa polyvalence et son rôle de pointe.
English
We propose Stable Video Infinity (SVI) that is able to generate infinite-length videos with high temporal consistency, plausible scene transitions, and controllable streaming storylines. While existing long-video methods attempt to mitigate accumulated errors via handcrafted anti-drifting (e.g., modified noise scheduler, frame anchoring), they remain limited to single-prompt extrapolation, producing homogeneous scenes with repetitive motions. We identify that the fundamental challenge extends beyond error accumulation to a critical discrepancy between the training assumption (seeing clean data) and the test-time autoregressive reality (conditioning on self-generated, error-prone outputs). To bridge this hypothesis gap, SVI incorporates Error-Recycling Fine-Tuning, a new type of efficient training that recycles the Diffusion Transformer (DiT)'s self-generated errors into supervisory prompts, thereby encouraging DiT to actively identify and correct its own errors. This is achieved by injecting, collecting, and banking errors through closed-loop recycling, autoregressively learning from error-injected feedback. Specifically, we (i) inject historical errors made by DiT to intervene on clean inputs, simulating error-accumulated trajectories in flow matching; (ii) efficiently approximate predictions with one-step bidirectional integration and calculate errors with residuals; (iii) dynamically bank errors into replay memory across discretized timesteps, which are resampled for new input. SVI is able to scale videos from seconds to infinite durations with no additional inference cost, while remaining compatible with diverse conditions (e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks, including consistent, creative, and conditional settings, thoroughly verifying its versatility and state-of-the-art role.
PDF112October 14, 2025