ChatPaper.aiChatPaper

VideoRoPE: ¿Qué hace que un incrustado rotativo de posición en video sea bueno?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Autores: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Resumen

Si bien la Incrustación de Posición Rotatoria (RoPE) y sus variantes son ampliamente adoptadas por sus capacidades de contexto largo, la extensión de la RoPE 1D a videos, con su estructura espacio-temporal compleja, sigue siendo un desafío abierto. Este trabajo introduce primero un análisis exhaustivo que identifica cuatro características clave esenciales para la adaptación efectiva de RoPE a videos, las cuales no han sido completamente consideradas en trabajos anteriores. Como parte de nuestro análisis, presentamos una tarea desafiante V-NIAH-D (Aguja en un Pajar Visual con Distractores), que agrega distractores periódicos a V-NIAH. La tarea V-NIAH-D demuestra que las variantes anteriores de RoPE, careciendo de una asignación temporal adecuada, son fácilmente engañadas por los distractores. Basándonos en nuestro análisis, presentamos VideoRoPE, con una estructura 3D diseñada para preservar las relaciones espacio-temporales. VideoRoPE presenta una asignación temporal de baja frecuencia para mitigar las oscilaciones periódicas, un diseño diagonal para mantener la simetría espacial, y un espaciado temporal ajustable para desacoplar la indexación temporal y espacial. VideoRoPE supera consistentemente a las variantes anteriores de RoPE, en diversas tareas posteriores como la recuperación de videos largos, la comprensión de videos y la alucinación de videos. Nuestro código estará disponible en https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025