ChatPaper.aiChatPaper

RIFLEx: 비디오 확산 트랜스포머에서 길이 외삽을 위한 무료 점심

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
저자: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

초록

최근 비디오 생성 분야의 발전으로 모델들이 고품질의 1분 길이 비디오를 합성할 수 있게 되었습니다. 그러나 더 긴 비디오를 시간적 일관성을 유지하며 생성하는 것은 여전히 주요 과제로 남아 있으며, 기존의 길이 외삽 방법들은 시간적 반복이나 모션 감속을 초래합니다. 본 연구에서는 위치 임베딩의 주파수 성분 역할을 체계적으로 분석하고, 외삽 동작을 주로 지배하는 고유 주파수를 식별했습니다. 이러한 통찰을 바탕으로, 우리는 RIFLEx를 제안합니다. 이는 반복을 억제하면서도 모션 일관성을 유지하기 위해 고유 주파수를 감소시키는 간단하면서도 효과적인 접근 방식으로, 추가적인 수정 없이도 적용 가능합니다. RIFLEx는 진정한 '공짜 점심'을 제공합니다. 즉, 최첨단 비디오 확산 트랜스포머에서 고품질의 2배 외삽을 완전히 학습 없이 달성합니다. 더 나아가, 최소한의 미세 조정만으로도 품질을 향상시키고 3배 외삽을 가능하게 합니다. 프로젝트 페이지와 코드는 https://riflex-video.github.io/에서 확인할 수 있습니다.
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025