ChatPaper.aiChatPaper

RIFLEx : Une solution gratuite pour l'extrapolation de longueur dans les Transformers de diffusion vidéo

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Auteurs: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Résumé

Les récents progrès dans la génération vidéo ont permis aux modèles de synthétiser des vidéos de haute qualité d'une durée d'une minute. Cependant, la génération de vidéos encore plus longues avec une cohérence temporelle reste un défi majeur, et les méthodes existantes d'extrapolation de longueur entraînent souvent des répétitions temporelles ou un ralentissement des mouvements. Dans ce travail, nous analysons systématiquement le rôle des composantes fréquentielles dans les embeddings positionnels et identifions une fréquence intrinsèque qui régit principalement le comportement d'extrapolation. Sur la base de cette observation, nous proposons RIFLEx, une approche minimale mais efficace qui réduit la fréquence intrinsèque pour supprimer les répétitions tout en préservant la cohérence des mouvements, sans nécessiter de modifications supplémentaires. RIFLEx offre un véritable "free lunch" en permettant une extrapolation de haute qualité à 2 fois la longueur originale sur des transformateurs de diffusion vidéo de pointe, de manière totalement exempte d'entraînement. De plus, il améliore la qualité et permet une extrapolation à 3 fois la longueur par un ajustement minimal, sans nécessiter de longues vidéos. Page du projet et codes : https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025