VideoRoPE : Qu'est-ce qui fait un bon encodage de position rotative vidéo ?
VideoRoPE: What Makes for Good Video Rotary Position Embedding?
February 7, 2025
Auteurs: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI
Résumé
Alors que l'incorporation de position rotative (RoPE) et ses variantes sont largement adoptées pour leurs capacités de long contexte, l'extension du RoPE 1D à la vidéo, avec sa structure spatio-temporelle complexe, reste un défi ouvert. Ce travail présente d'abord une analyse approfondie qui identifie quatre caractéristiques clés essentielles pour l'adaptation efficace du RoPE à la vidéo, qui n'ont pas été pleinement prises en compte dans les travaux antérieurs. Dans le cadre de notre analyse, nous introduisons une tâche difficile V-NIAH-D (Aiguille Dans Une Botte de Foin Visuelle avec Distracteurs), qui ajoute des distracteurs périodiques à V-NIAH. La tâche V-NIAH-D démontre que les variantes précédentes du RoPE, manquant d'une allocation temporelle appropriée, sont facilement induites en erreur par les distracteurs. Sur la base de notre analyse, nous introduisons VideoRoPE, avec une structure 3D conçue pour préserver les relations spatio-temporelles. VideoRoPE présente une allocation temporelle basse fréquence pour atténuer les oscillations périodiques, une disposition diagonale pour maintenir la symétrie spatiale, et un espacement temporel ajustable pour découpler l'indexation temporelle et spatiale. VideoRoPE surpasse systématiquement les variantes précédentes du RoPE, à travers diverses tâches ultérieures telles que la recherche de longues vidéos, la compréhension vidéo et l'hallucination vidéo. Notre code sera disponible sur https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted
for their long-context capabilities, the extension of the 1D RoPE to video,
with its complex spatio-temporal structure, remains an open challenge. This
work first introduces a comprehensive analysis that identifies four key
characteristics essential for the effective adaptation of RoPE to video, which
have not been fully considered in prior work. As part of our analysis, we
introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors)
task, which adds periodic distractors into V-NIAH. The V-NIAH-D task
demonstrates that previous RoPE variants, lacking appropriate temporal
dimension allocation, are easily misled by distractors. Based on our analysis,
we introduce VideoRoPE, with a 3D structure designed to
preserve spatio-temporal relationships. VideoRoPE features
low-frequency temporal allocation to mitigate periodic oscillations, a
diagonal layout to maintain spatial symmetry, and adjustable
temporal spacing to decouple temporal and spatial indexing. VideoRoPE
consistently surpasses previous RoPE variants, across diverse downstream tasks
such as long video retrieval, video understanding, and video hallucination. Our
code will be available at
https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.Summary
AI-Generated Summary