L'extrapolazione della lunghezza è una sfida fondamentale per i modelli di diffusione video, poiché richiede la generazione coerente di frame aggiuntivi oltre la lunghezza di addestramento. Presentiamo RIFLEx, un approccio innovativo che sfrutta le proprietà intrinseche dei trasformatori per estendere la lunghezza dei video generati senza necessità di riaddestramento. RIFLEx introduce un meccanismo di riflessione che consente al modello di riutilizzare efficacemente le informazioni apprese durante l'addestramento, garantendo coerenza temporale e qualità visiva nei frame estesi. Sperimentazioni estensive dimostrano che RIFLEx supera i metodi esistenti in termini di qualità percepita e coerenza temporale, offrendo una soluzione praticabile per l'estensione della lunghezza dei video in scenari reali.
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
February 21, 2025
Autori: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI
Abstract
I recenti progressi nella generazione video hanno consentito ai modelli di sintetizzare video di alta qualità della durata di un minuto. Tuttavia, generare video ancora più lunghi con coerenza temporale rimane una sfida significativa, e i metodi esistenti di estrapolazione della lunghezza portano a ripetizioni temporali o a un rallentamento del movimento. In questo lavoro, analizziamo sistematicamente il ruolo delle componenti di frequenza negli embedding posizionali e identifichiamo una frequenza intrinseca che governa principalmente il comportamento di estrapolazione. Basandoci su questa intuizione, proponiamo RIFLEx, un approccio minimale ma efficace che riduce la frequenza intrinseca per sopprimere le ripetizioni preservando al contempo la coerenza del movimento, senza richiedere alcuna modifica aggiuntiva. RIFLEx offre un vero "free lunch", raggiungendo un'estrapolazione di alta qualità di 2 volte sui migliori trasformatori di diffusione video in modo completamente privo di addestramento. Inoltre, migliora la qualità e consente un'estrapolazione di 3 volte con un fine-tuning minimo, senza la necessità di video lunghi. Pagina del progetto e codici: https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize
high-quality, minute-long videos. However, generating even longer videos with
temporal coherence remains a major challenge, and existing length extrapolation
methods lead to temporal repetition or motion deceleration. In this work, we
systematically analyze the role of frequency components in positional
embeddings and identify an intrinsic frequency that primarily governs
extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet
effective approach that reduces the intrinsic frequency to suppress repetition
while preserving motion consistency, without requiring any additional
modifications. RIFLEx offers a true free lunch--achieving high-quality
2times extrapolation on state-of-the-art video diffusion transformers in a
completely training-free manner. Moreover, it enhances quality and enables
3times extrapolation by minimal fine-tuning without long videos. Project
page and codes:
https://riflex-video.github.io/{https://riflex-video.github.io/.}Summary
AI-Generated Summary