HoPE: Híbrido de Incorporação de Posição para Generalização de Comprimento em Modelos Visão-Linguagem
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Autores: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Resumo
Os Modelos de Visão-Linguagem (VLMs) têm feito progressos significativos em tarefas multimodais. No entanto, seu desempenho frequentemente se deteriora em cenários de contexto longo, particularmente em vídeos longos. Embora o Rotary Position Embedding (RoPE) tenha sido amplamente adotado para generalização de comprimento em Modelos de Linguagem de Grande Escala (LLMs), estender o RoPE padrão para capturar as complexas dependências espaço-temporais em vídeos continua sendo um desafio não resolvido. Os métodos existentes geralmente alocam diferentes frequências dentro do RoPE para codificar informações posicionais 3D. No entanto, essas estratégias de alocação dependem principalmente de heurísticas, carecendo de uma análise teórica aprofundada. Neste artigo, primeiro estudamos como diferentes estratégias de alocação impactam as capacidades de contexto longo dos VLMs. Nossa análise revela que os RoPEs multimodais atuais falham em capturar de forma confiável as similaridades semânticas em contextos estendidos. Para resolver esse problema, propomos o HoPE, um Híbrido de Position Embedding projetado para melhorar as capacidades de contexto longo dos VLMs. O HoPE introduz uma estratégia híbrida de alocação de frequências para modelagem semântica confiável em contextos arbitrariamente longos, e um mecanismo de escala temporal dinâmica para facilitar o aprendizado robusto e a inferência flexível em diversos comprimentos de contexto. Experimentos extensivos em quatro benchmarks de vídeo para tarefas de compreensão e recuperação de vídeos longos demonstram que o HoPE consistentemente supera os métodos existentes, confirmando sua eficácia. O código está disponível em https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.