ChatPaper.aiChatPaper

VideoRoPE: Что делает хорошее видео вращающееся позиционное вложение?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Авторы: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Аннотация

Хотя встраивание позиции по методу вращения (RoPE) и его варианты широко приняты из-за их способности к работе с длинными контекстами, расширение одномерного RoPE на видео с его сложной пространственно-временной структурой остается открытой проблемой. В данной работе впервые представлено всестороннее исследование, выделяющее четыре ключевых характеристики, необходимые для эффективной адаптации RoPE к видео, которые ранее не были полностью учтены. В рамках нашего анализа мы представляем сложную задачу V-NIAH-D (Visual Needle-In-A-Haystack с дистракторами), которая добавляет периодические дистракторы в V-NIAH. Задача V-NIAH-D показывает, что предыдущие варианты RoPE, лишенные соответствующего выделения временного измерения, легко вводятся в заблуждение дистракторами. На основе нашего анализа мы представляем VideoRoPE с трехмерной структурой, разработанной для сохранения пространственно-временных отношений. VideoRoPE включает в себя выделение низкочастотного времени для смягчения периодических колебаний, диагональное расположение для сохранения пространственной симметрии и регулируемый временной интервал для разделения временной и пространственной индексации. VideoRoPE последовательно превосходит предыдущие варианты RoPE в различных задачах, таких как поиск длинных видео, понимание видео и генерация видеоизображений. Наш код будет доступен по ссылке https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025