ChatPaper.aiChatPaper

RIFLEx: Een Gratis Oplossing voor Lengte-extrapolatie in Video-diffusie Transformers

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Auteurs: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie heeft modellen in staat gesteld om hoogwaardige, minutenlange video's te synthetiseren. Het genereren van nog langere video's met temporele coherentie blijft echter een grote uitdaging, en bestaande methoden voor lengte-extrapolatie leiden tot temporele herhaling of vertraging van beweging. In dit werk analyseren we systematisch de rol van frequentiecomponenten in positionele inbeddingen en identificeren we een intrinsieke frequentie die voornamelijk het extrapolatiegedrag bepaalt. Op basis van dit inzicht stellen we RIFLEx voor, een minimale maar effectieve aanpak die de intrinsieke frequentie verlaagt om herhaling te onderdrukken terwijl de bewegingsconsistentie behouden blijft, zonder dat aanvullende aanpassingen nodig zijn. RIFLEx biedt een echte 'free lunch' – het bereikt hoogwaardige 2x-extrapolatie op state-of-the-art videodiffusietransformers op een volledig trainingsvrije manier. Bovendien verbetert het de kwaliteit en maakt het 3x-extrapolatie mogelijk door minimale fine-tuning zonder lange video's. Projectpagina en codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025