ChatPaper.aiChatPaper

VideoRoPE: Wat maakt een goede Video Rotary Position Embedding?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Auteurs: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Samenvatting

Hoewel Rotary Position Embedding (RoPE) en zijn varianten wijdverspreid zijn aangenomen vanwege hun vermogen om lange contexten te verwerken, blijft de uitbreiding van de 1D RoPE naar video, met zijn complexe ruimtelijk-temporele structuur, een open uitdaging. Dit werk introduceert eerst een uitgebreide analyse die vier essentiële kenmerken identificeert voor de effectieve aanpassing van RoPE naar video, die nog niet volledig zijn overwogen in eerdere werken. Als onderdeel van onze analyse introduceren we een uitdagende V-NIAH-D (Visual Needle-In-A-Haystack met Afleidingen) taak, die periodieke afleidingen toevoegt aan V-NIAH. De V-NIAH-D taak toont aan dat eerdere RoPE varianten, die geen geschikte toewijzing van de temporele dimensie hebben, gemakkelijk misleid worden door afleidingen. Op basis van onze analyse introduceren we VideoRoPE, met een 3D structuur ontworpen om ruimtelijk-temporele relaties te behouden. VideoRoPE kenmerkt zich door lage frequentie temporele toewijzing om periodieke oscillaties te verminderen, een diagonale lay-out om ruimtelijke symmetrie te behouden, en aanpasbare temporele afstand om temporele en ruimtelijke indexering te ontkoppelen. VideoRoPE overtreft consequent eerdere RoPE varianten, over diverse downstream taken zoals lange videoretrieval, videobegrip en videohallucinatie. Onze code zal beschikbaar zijn op https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025