ChatPaper.aiChatPaper

VideoRoPE: O que torna um bom vídeo de incorporação de posição rotativa?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Autores: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Resumo

Embora a Incorporação de Posição Rotativa (RoPE) e suas variantes sejam amplamente adotadas por suas capacidades de longo contexto, a extensão da RoPE 1D para vídeos, com sua estrutura espaço-temporal complexa, permanece um desafio em aberto. Este trabalho introduz inicialmente uma análise abrangente que identifica quatro características essenciais para a adaptação eficaz da RoPE para vídeos, as quais não foram totalmente consideradas em trabalhos anteriores. Como parte de nossa análise, introduzimos uma tarefa desafiadora V-NIAH-D (Agulha em um Palheiro Visual com Distratores), que adiciona distratores periódicos ao V-NIAH. A tarefa V-NIAH-D demonstra que variantes anteriores da RoPE, que carecem de alocação temporal apropriada, são facilmente enganadas por distratores. Com base em nossa análise, introduzimos o VideoRoPE, com uma estrutura 3D projetada para preservar as relações espaço-temporais. O VideoRoPE apresenta alocação temporal de baixa frequência para mitigar oscilações periódicas, um layout diagonal para manter a simetria espacial e espaçamento temporal ajustável para desacoplar a indexação temporal e espacial. O VideoRoPE supera consistentemente variantes anteriores da RoPE em diversas tarefas subsequentes, como recuperação de vídeos longos, compreensão de vídeos e alucinação de vídeos. Nosso código estará disponível em https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025