ChatPaper.aiChatPaper

RIFLEx: Una solución sin coste adicional para la extrapolación de longitud en transformadores de difusión de video

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Autores: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Resumen

Los recientes avances en la generación de vídeos han permitido a los modelos sintetizar vídeos de alta calidad con una duración de varios minutos. Sin embargo, generar vídeos aún más largos con coherencia temporal sigue siendo un desafío importante, y los métodos actuales de extrapolación de longitud resultan en repeticiones temporales o desaceleración del movimiento. En este trabajo, analizamos sistemáticamente el papel de los componentes de frecuencia en los embeddings posicionales e identificamos una frecuencia intrínseca que gobierna principalmente el comportamiento de extrapolación. Basándonos en esta idea, proponemos RIFLEx, un enfoque minimalista pero efectivo que reduce la frecuencia intrínseca para suprimir la repetición mientras mantiene la consistencia del movimiento, sin requerir modificaciones adicionales. RIFLEx ofrece una verdadera "comida gratis": logra una extrapolación de alta calidad de 2 veces en transformadores de difusión de vídeo de última generación de manera completamente libre de entrenamiento. Además, mejora la calidad y permite una extrapolación de 3 veces mediante un ajuste fino mínimo, sin necesidad de vídeos largos. Página del proyecto y códigos: https://riflex-video.github.io/.
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025