ChatPaper.aiChatPaper

VideoRoPE: Cosa rende efficace l'embedding della posizione rotativa nei video?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Autori: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Abstract

Mentre l'Incorporamento della Posizione Rotativa (RoPE) e le sue varianti sono ampiamente adottati per le loro capacità di lungo contesto, l'estensione del RoPE 1D ai video, con la loro complessa struttura spazio-temporale, rimane una sfida aperta. Questo lavoro introduce innanzitutto un'analisi esaustiva che identifica quattro caratteristiche chiave essenziali per l'adattamento efficace del RoPE ai video, che non sono state pienamente considerate nei lavori precedenti. Come parte della nostra analisi, introduciamo un complesso compito V-NIAH-D (Ago in un Pagliaio Visivo con Distrattori), che aggiunge distrattori periodici a V-NIAH. Il compito V-NIAH-D dimostra che le precedenti varianti di RoPE, prive di un'adeguata allocazione dimensionale temporale, sono facilmente fuorviate dai distrattori. Sulla base della nostra analisi, introduciamo VideoRoPE, con una struttura 3D progettata per preservare le relazioni spazio-temporali. VideoRoPE presenta un'allocazione temporale a bassa frequenza per mitigare le oscillazioni periodiche, un layout diagonale per mantenere la simmetria spaziale e uno spaziamento temporale regolabile per disaccoppiare l'indicizzazione temporale e spaziale. VideoRoPE supera costantemente le precedenti varianti di RoPE, in una varietà di compiti successivi come il recupero di video di lunga durata, la comprensione dei video e l'allucinazione dei video. Il nostro codice sarà disponibile su https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025