HoPE: Гибридное позиционное кодирование для обобщения на длинные последовательности в моделях обработки визуально-языковых данных
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Авторы: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), достигли значительного прогресса в решении мультимодальных задач. Однако их производительность часто снижается в сценариях с длинным контекстом, особенно при работе с длинными видео. Хотя Rotary Position Embedding (RoPE) широко используется для обобщения на длинные контексты в больших языковых моделях (Large Language Models, LLMs), расширение базового RoPE для учета сложных пространственно-временных зависимостей в видео остается нерешенной задачей. Существующие методы обычно выделяют различные частоты в RoPE для кодирования 3D-позиционной информации. Однако эти стратегии распределения в основном основываются на эвристиках и не подкреплены глубоким теоретическим анализом. В данной работе мы впервые исследуем, как различные стратегии распределения влияют на способность VLMs работать с длинным контекстом. Наш анализ показывает, что текущие мультимодальные RoPE не способны надежно улавливать семантические сходства в расширенных контекстах. Для решения этой проблемы мы предлагаем HoPE (Hybrid of Position Embedding), гибридный подход к позиционному кодированию, предназначенный для улучшения способности VLMs работать с длинным контекстом. HoPE вводит гибридную стратегию распределения частот для надежного семантического моделирования в контекстах произвольной длины, а также механизм динамического временного масштабирования для облегчения устойчивого обучения и гибкого вывода на различных длинах контекста. Эксперименты на четырех видеобенчмарках для задач понимания и поиска в длинных видео демонстрируют, что HoPE стабильно превосходит существующие методы, подтверждая его эффективность. Код доступен по адресу https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.Summary
AI-Generated Summary