HoPE : Hybride de Position Embedding pour la généralisation de longueur dans les modèles vision-langage

papers.abstract

Les modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans les tâches multimodales. Cependant, leurs performances se dégradent souvent dans des scénarios à contexte étendu, en particulier pour les vidéos longues. Bien que l'incorporation de position rotative (RoPE) ait été largement adoptée pour la généralisation de longueur dans les grands modèles de langage (LLMs), étendre la RoPE classique pour capturer les dépendances spatio-temporelles complexes dans les vidéos reste un défi non résolu. Les méthodes existantes attribuent généralement différentes fréquences au sein de la RoPE pour encoder les informations de position 3D. Cependant, ces stratégies d'attribution reposent principalement sur des heuristiques, manquant d'une analyse théorique approfondie. Dans cet article, nous étudions d'abord comment différentes stratégies d'attribution impactent les capacités de contexte étendu des VLMs. Notre analyse révèle que les RoPE multimodales actuelles ne parviennent pas à capturer de manière fiable les similarités sémantiques sur des contextes étendus. Pour résoudre ce problème, nous proposons HoPE, une incorporation de position hybride conçue pour améliorer les capacités de contexte étendu des VLMs. HoPE introduit une stratégie d'attribution de fréquences hybrides pour une modélisation sémantique fiable sur des contextes arbitrairement longs, ainsi qu'un mécanisme de mise à l'échelle temporelle dynamique pour faciliter un apprentissage robuste et une inférence flexible sur des longueurs de contexte variées. Des expériences approfondies sur quatre benchmarks vidéo pour des tâches de compréhension et de recherche de vidéos longues démontrent que HoPE surpasse systématiquement les méthodes existantes, confirmant son efficacité. Le code est disponible à l'adresse https://github.com/hrlics/HoPE.

English

Vision-Language Models (VLMs) have made significant progress in multimodal tasks. However, their performance often deteriorates in long-context scenarios, particularly long videos. While Rotary Position Embedding (RoPE) has been widely adopted for length generalization in Large Language Models (LLMs), extending vanilla RoPE to capture the intricate spatial-temporal dependencies in videos remains an unsolved challenge. Existing methods typically allocate different frequencies within RoPE to encode 3D positional information. However, these allocation strategies mainly rely on heuristics, lacking in-depth theoretical analysis. In this paper, we first study how different allocation strategies impact the long-context capabilities of VLMs. Our analysis reveals that current multimodal RoPEs fail to reliably capture semantic similarities over extended contexts. To address this issue, we propose HoPE, a Hybrid of Position Embedding designed to improve the long-context capabilities of VLMs. HoPE introduces a hybrid frequency allocation strategy for reliable semantic modeling over arbitrarily long context, and a dynamic temporal scaling mechanism to facilitate robust learning and flexible inference across diverse context lengths. Extensive experiments across four video benchmarks on long video understanding and retrieval tasks demonstrate that HoPE consistently outperforms existing methods, confirming its effectiveness. Code is available at https://github.com/hrlics/HoPE.

HoPE : Hybride de Position Embedding pour la généralisation de longueur dans les modèles vision-langage

HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

papers.abstract

Support