Stable Video Infinity: Generazione di Video a Lunghezza Infinita con Riciclo degli Errori
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
October 10, 2025
Autori: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI
Abstract
Proponiamo Stable Video Infinity (SVI), in grado di generare video di lunghezza infinita con elevata coerenza temporale, transizioni di scena plausibili e trame streaming controllabili. Mentre i metodi esistenti per video lunghi cercano di mitigare gli errori accumulati attraverso tecniche anti-deriva artigianali (ad esempio, schedulatori di rumore modificati, ancoraggio dei frame), rimangono limitati all'estrapolazione a singolo prompt, producendo scene omogenee con movimenti ripetitivi. Identifichiamo che la sfida fondamentale va oltre l'accumulo di errori, estendendosi a una discrepanza critica tra l'assunzione di training (vedere dati puliti) e la realtà autoregressiva al momento del test (condizionamento su output auto-generati e soggetti a errori). Per colmare questo divario ipotetico, SVI incorpora l'Error-Recycling Fine-Tuning, un nuovo tipo di training efficiente che ricicla gli errori auto-generati dal Diffusion Transformer (DiT) in prompt di supervisione, incoraggiando così il DiT a identificare e correggere attivamente i propri errori. Ciò è ottenuto iniettando, raccogliendo e memorizzando gli errori attraverso un riciclo a ciclo chiuso, apprendendo autoregressivamente dal feedback con errori iniettati. Nello specifico, (i) iniettiamo errori storici commessi dal DiT per intervenire su input puliti, simulando traiettorie con errori accumulati nel flow matching; (ii) approssimiamo efficientemente le previsioni con integrazione bidirezionale a un passo e calcoliamo gli errori con i residui; (iii) memorizziamo dinamicamente gli errori in una memoria di replay attraverso passaggi temporali discretizzati, che vengono ricampionati per nuovi input. SVI è in grado di scalare video da secondi a durate infinite senza costi aggiuntivi di inferenza, rimanendo compatibile con diverse condizioni (ad esempio, flussi audio, scheletro e testo). Valutiamo SVI su tre benchmark, inclusi contesti coerenti, creativi e condizionali, verificando approfonditamente la sua versatilità e il ruolo all'avanguardia.
English
We propose Stable Video Infinity (SVI) that is able to generate
infinite-length videos with high temporal consistency, plausible scene
transitions, and controllable streaming storylines. While existing long-video
methods attempt to mitigate accumulated errors via handcrafted anti-drifting
(e.g., modified noise scheduler, frame anchoring), they remain limited to
single-prompt extrapolation, producing homogeneous scenes with repetitive
motions. We identify that the fundamental challenge extends beyond error
accumulation to a critical discrepancy between the training assumption (seeing
clean data) and the test-time autoregressive reality (conditioning on
self-generated, error-prone outputs). To bridge this hypothesis gap, SVI
incorporates Error-Recycling Fine-Tuning, a new type of efficient training that
recycles the Diffusion Transformer (DiT)'s self-generated errors into
supervisory prompts, thereby encouraging DiT to actively identify and correct
its own errors. This is achieved by injecting, collecting, and banking errors
through closed-loop recycling, autoregressively learning from error-injected
feedback. Specifically, we (i) inject historical errors made by DiT to
intervene on clean inputs, simulating error-accumulated trajectories in flow
matching; (ii) efficiently approximate predictions with one-step bidirectional
integration and calculate errors with residuals; (iii) dynamically bank errors
into replay memory across discretized timesteps, which are resampled for new
input. SVI is able to scale videos from seconds to infinite durations with no
additional inference cost, while remaining compatible with diverse conditions
(e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks,
including consistent, creative, and conditional settings, thoroughly verifying
its versatility and state-of-the-art role.