ChatPaper.aiChatPaper

RIFLEx: Ein kostenloser Mittagstisch für Längenextrapolation in Video-Transformern

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Autoren: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei der Videogenerierung Modelle ermöglicht, hochwertige Videos von einer Minute Länge zu synthetisieren. Die Generierung noch längerer Videos mit zeitlicher Kohärenz bleibt jedoch eine große Herausforderung, und bestehende Methoden zur Längenextrapolation führen zu zeitlichen Wiederholungen oder Bewegungsverlangsamungen. In dieser Arbeit analysieren wir systematisch die Rolle der Frequenzkomponenten in Positionseinbettungen und identifizieren eine intrinsische Frequenz, die hauptsächlich das Extrapolationsverhalten steuert. Basierend auf dieser Erkenntnis schlagen wir RIFLEx vor, einen minimalen, aber effektiven Ansatz, der die intrinsische Frequenz reduziert, um Wiederholungen zu unterdrücken, während die Bewegungskonsistenz erhalten bleibt, ohne zusätzliche Modifikationen zu erfordern. RIFLEx bietet ein echtes "free lunch" - erreicht hochwertige 2-fache Extrapolation auf modernsten Video-Diffusionstransformatoren auf völlig trainingsfreie Weise. Darüber hinaus verbessert es die Qualität und ermöglicht 3-fache Extrapolation durch minimales Feintuning ohne lange Videos. Projektseite und Codes: https://riflex-video.github.io/.
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025