HoPE: Híbrido de Incrustación de Posición para la Generalización de Longitud en Modelos de Visión y Lenguaje
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Autores: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en tareas multimodales. Sin embargo, su rendimiento suele deteriorarse en escenarios de contexto largo, particularmente en videos extensos. Si bien el Embedding de Posición Rotatoria (RoPE) ha sido ampliamente adoptado para la generalización de longitud en Modelos de Lenguaje de Gran Escala (LLMs), extender el RoPE estándar para capturar las complejas dependencias espacio-temporales en videos sigue siendo un desafío sin resolver. Los métodos existentes suelen asignar diferentes frecuencias dentro de RoPE para codificar información posicional 3D. No obstante, estas estrategias de asignación se basan principalmente en heurísticas, careciendo de un análisis teórico profundo. En este artículo, primero estudiamos cómo diferentes estrategias de asignación impactan en las capacidades de contexto largo de los VLMs. Nuestro análisis revela que los RoPEs multimodales actuales no logran capturar de manera confiable las similitudes semánticas en contextos extensos. Para abordar este problema, proponemos HoPE, un Híbrido de Embedding de Posición diseñado para mejorar las capacidades de contexto largo de los VLMs. HoPE introduce una estrategia híbrida de asignación de frecuencias para un modelado semántico confiable en contextos arbitrariamente largos, y un mecanismo de escalado temporal dinámico para facilitar un aprendizaje robusto y una inferencia flexible en diversos contextos de longitud. Experimentos exhaustivos en cuatro benchmarks de video para tareas de comprensión y recuperación de videos largos demuestran que HoPE supera consistentemente a los métodos existentes, confirmando su efectividad. El código está disponible en https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.Summary
AI-Generated Summary