HoPE: Híbrido de Incorporação de Posição para Generalização de Comprimento em Modelos Visão-Linguagem

Resumo

Os Modelos de Visão-Linguagem (VLMs) têm feito progressos significativos em tarefas multimodais. No entanto, seu desempenho frequentemente se deteriora em cenários de contexto longo, particularmente em vídeos longos. Embora o Rotary Position Embedding (RoPE) tenha sido amplamente adotado para generalização de comprimento em Modelos de Linguagem de Grande Escala (LLMs), estender o RoPE padrão para capturar as complexas dependências espaço-temporais em vídeos continua sendo um desafio não resolvido. Os métodos existentes geralmente alocam diferentes frequências dentro do RoPE para codificar informações posicionais 3D. No entanto, essas estratégias de alocação dependem principalmente de heurísticas, carecendo de uma análise teórica aprofundada. Neste artigo, primeiro estudamos como diferentes estratégias de alocação impactam as capacidades de contexto longo dos VLMs. Nossa análise revela que os RoPEs multimodais atuais falham em capturar de forma confiável as similaridades semânticas em contextos estendidos. Para resolver esse problema, propomos o HoPE, um Híbrido de Position Embedding projetado para melhorar as capacidades de contexto longo dos VLMs. O HoPE introduz uma estratégia híbrida de alocação de frequências para modelagem semântica confiável em contextos arbitrariamente longos, e um mecanismo de escala temporal dinâmica para facilitar o aprendizado robusto e a inferência flexível em diversos comprimentos de contexto. Experimentos extensivos em quatro benchmarks de vídeo para tarefas de compreensão e recuperação de vídeos longos demonstram que o HoPE consistentemente supera os métodos existentes, confirmando sua eficácia. O código está disponível em https://github.com/hrlics/HoPE.

English

Vision-Language Models (VLMs) have made significant progress in multimodal tasks. However, their performance often deteriorates in long-context scenarios, particularly long videos. While Rotary Position Embedding (RoPE) has been widely adopted for length generalization in Large Language Models (LLMs), extending vanilla RoPE to capture the intricate spatial-temporal dependencies in videos remains an unsolved challenge. Existing methods typically allocate different frequencies within RoPE to encode 3D positional information. However, these allocation strategies mainly rely on heuristics, lacking in-depth theoretical analysis. In this paper, we first study how different allocation strategies impact the long-context capabilities of VLMs. Our analysis reveals that current multimodal RoPEs fail to reliably capture semantic similarities over extended contexts. To address this issue, we propose HoPE, a Hybrid of Position Embedding designed to improve the long-context capabilities of VLMs. HoPE introduces a hybrid frequency allocation strategy for reliable semantic modeling over arbitrarily long context, and a dynamic temporal scaling mechanism to facilitate robust learning and flexible inference across diverse context lengths. Extensive experiments across four video benchmarks on long video understanding and retrieval tasks demonstrate that HoPE consistently outperforms existing methods, confirming its effectiveness. Code is available at https://github.com/hrlics/HoPE.

HoPE: Híbrido de Incorporação de Posição para Generalização de Comprimento em Modelos Visão-Linguagem

HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

Resumo

Support