ChatPaper.aiChatPaper

VideoRoPE: 優れたビデオロータリーポジション埋め込みの条件

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
著者: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

要旨

Rotary Position Embedding(RoPE)およびその派生物は、長い文脈を持つ能力により広く採用されていますが、1D RoPEをビデオに拡張することは、その複雑な時空間構造のために未解決の課題となっています。本研究では、RoPEをビデオに効果的に適応させるために重要な4つの特性を特定する包括的な分析を初めて紹介しましたが、これらの特性は以前の研究で十分に考慮されていませんでした。分析の一環として、V-NIAH(Visual Needle-In-A-Haystack)に周期的なジャマ要素を追加したV-NIAH-D(Visual Needle-In-A-Haystack with Distractors)タスクを導入しました。V-NIAH-Dタスクは、適切な時間次元の割り当てが欠如している以前のRoPE派生物がジャマ要素に簡単に惑わされることを示しています。分析に基づき、時空間関係を保持するように設計された3D構造を持つVideoRoPEを導入しました。VideoRoPEは、周期的な振動を緩和するための低周波数の時間割り当て、空間的対称性を維持するための対角配置、および時間と空間のインデックス付けを分離するための調整可能な時間間隔を特徴としています。VideoRoPEは、長いビデオ検索、ビデオ理解、およびビデオ幻想などの多様な下流タスクにわたって、以前のRoPE派生物を常に上回っています。弊社のコードは、以下のリンクから入手可能です:https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}。
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025