ChatPaper.aiChatPaper

Stable Video Infinity: Generazione di Video a Lunghezza Infinita con Riciclo degli Errori

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

October 10, 2025
Autori: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI

Abstract

Proponiamo Stable Video Infinity (SVI), in grado di generare video di lunghezza infinita con elevata coerenza temporale, transizioni di scena plausibili e trame streaming controllabili. Mentre i metodi esistenti per video lunghi cercano di mitigare gli errori accumulati attraverso tecniche anti-deriva artigianali (ad esempio, schedulatori di rumore modificati, ancoraggio dei frame), rimangono limitati all'estrapolazione a singolo prompt, producendo scene omogenee con movimenti ripetitivi. Identifichiamo che la sfida fondamentale va oltre l'accumulo di errori, estendendosi a una discrepanza critica tra l'assunzione di training (vedere dati puliti) e la realtà autoregressiva al momento del test (condizionamento su output auto-generati e soggetti a errori). Per colmare questo divario ipotetico, SVI incorpora l'Error-Recycling Fine-Tuning, un nuovo tipo di training efficiente che ricicla gli errori auto-generati dal Diffusion Transformer (DiT) in prompt di supervisione, incoraggiando così il DiT a identificare e correggere attivamente i propri errori. Ciò è ottenuto iniettando, raccogliendo e memorizzando gli errori attraverso un riciclo a ciclo chiuso, apprendendo autoregressivamente dal feedback con errori iniettati. Nello specifico, (i) iniettiamo errori storici commessi dal DiT per intervenire su input puliti, simulando traiettorie con errori accumulati nel flow matching; (ii) approssimiamo efficientemente le previsioni con integrazione bidirezionale a un passo e calcoliamo gli errori con i residui; (iii) memorizziamo dinamicamente gli errori in una memoria di replay attraverso passaggi temporali discretizzati, che vengono ricampionati per nuovi input. SVI è in grado di scalare video da secondi a durate infinite senza costi aggiuntivi di inferenza, rimanendo compatibile con diverse condizioni (ad esempio, flussi audio, scheletro e testo). Valutiamo SVI su tre benchmark, inclusi contesti coerenti, creativi e condizionali, verificando approfonditamente la sua versatilità e il ruolo all'avanguardia.
English
We propose Stable Video Infinity (SVI) that is able to generate infinite-length videos with high temporal consistency, plausible scene transitions, and controllable streaming storylines. While existing long-video methods attempt to mitigate accumulated errors via handcrafted anti-drifting (e.g., modified noise scheduler, frame anchoring), they remain limited to single-prompt extrapolation, producing homogeneous scenes with repetitive motions. We identify that the fundamental challenge extends beyond error accumulation to a critical discrepancy between the training assumption (seeing clean data) and the test-time autoregressive reality (conditioning on self-generated, error-prone outputs). To bridge this hypothesis gap, SVI incorporates Error-Recycling Fine-Tuning, a new type of efficient training that recycles the Diffusion Transformer (DiT)'s self-generated errors into supervisory prompts, thereby encouraging DiT to actively identify and correct its own errors. This is achieved by injecting, collecting, and banking errors through closed-loop recycling, autoregressively learning from error-injected feedback. Specifically, we (i) inject historical errors made by DiT to intervene on clean inputs, simulating error-accumulated trajectories in flow matching; (ii) efficiently approximate predictions with one-step bidirectional integration and calculate errors with residuals; (iii) dynamically bank errors into replay memory across discretized timesteps, which are resampled for new input. SVI is able to scale videos from seconds to infinite durations with no additional inference cost, while remaining compatible with diverse conditions (e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks, including consistent, creative, and conditional settings, thoroughly verifying its versatility and state-of-the-art role.
PDF112October 14, 2025