ChatPaper.aiChatPaper

RIFLEx: Um Almoço Grátis para Extrapolação de Comprimento em Transformers de Difusão de Vídeo

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Autores: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Resumo

Avanços recentes na geração de vídeos permitiram que modelos sintetizassem vídeos de alta qualidade com duração de minutos. No entanto, gerar vídeos ainda mais longos com coerência temporal continua sendo um grande desafio, e os métodos existentes de extrapolação de comprimento resultam em repetição temporal ou desaceleração do movimento. Neste trabalho, analisamos sistematicamente o papel dos componentes de frequência em embeddings posicionais e identificamos uma frequência intrínseca que governa principalmente o comportamento de extrapolação. Com base nessa percepção, propomos o RIFLEx, uma abordagem mínima, porém eficaz, que reduz a frequência intrínseca para suprimir a repetição enquanto preserva a consistência do movimento, sem exigir modificações adicionais. O RIFLEx oferece um verdadeiro "almoço grátis" — alcançando extrapolação de 2x em modelos de difusão de vídeo state-of-the-art de forma completamente livre de treinamento. Além disso, ele melhora a qualidade e permite extrapolação de 3x com ajuste mínimo, sem a necessidade de vídeos longos. Página do projeto e códigos: https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025