RIFLEx: ビデオ拡散における長さ外挿のための無償の手法 トランスフォーマー
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
February 21, 2025
著者: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI
要旨
近年のビデオ生成技術の進歩により、高品質で1分間のビデオを合成するモデルが実現されています。しかし、より長時間のビデオを時間的に一貫性を持って生成することは依然として大きな課題であり、既存の長さ外挿法では時間的な繰り返しや動きの減速が生じます。本研究では、位置埋め込みにおける周波数成分の役割を体系的に分析し、外挿動作を主に支配する固有周波数を特定しました。この知見に基づいて、RIFLExを提案します。これは、繰り返しを抑制しつつ動きの一貫性を保つために固有周波数を低減する、最小限でありながら効果的なアプローチであり、追加の修正を必要としません。RIFLExは真のフリーランチを提供し、最先端のビデオ拡散トランスフォーマーにおいて、完全にトレーニング不要な方法で高品質な2倍の外挿を実現します。さらに、最小限のファインチューニングにより品質を向上させ、長時間のビデオなしで3倍の外挿を可能にします。プロジェクトページとコードは以下をご覧ください:
https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize
high-quality, minute-long videos. However, generating even longer videos with
temporal coherence remains a major challenge, and existing length extrapolation
methods lead to temporal repetition or motion deceleration. In this work, we
systematically analyze the role of frequency components in positional
embeddings and identify an intrinsic frequency that primarily governs
extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet
effective approach that reduces the intrinsic frequency to suppress repetition
while preserving motion consistency, without requiring any additional
modifications. RIFLEx offers a true free lunch--achieving high-quality
2times extrapolation on state-of-the-art video diffusion transformers in a
completely training-free manner. Moreover, it enhances quality and enables
3times extrapolation by minimal fine-tuning without long videos. Project
page and codes:
https://riflex-video.github.io/{https://riflex-video.github.io/.}Summary
AI-Generated Summary