HoPE : Hybride de Position Embedding pour la généralisation de longueur dans les modèles vision-langage
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Auteurs: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Résumé
Les modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans les tâches multimodales. Cependant, leurs performances se dégradent souvent dans des scénarios à contexte étendu, en particulier pour les vidéos longues. Bien que l'incorporation de position rotative (RoPE) ait été largement adoptée pour la généralisation de longueur dans les grands modèles de langage (LLMs), étendre la RoPE classique pour capturer les dépendances spatio-temporelles complexes dans les vidéos reste un défi non résolu. Les méthodes existantes attribuent généralement différentes fréquences au sein de la RoPE pour encoder les informations de position 3D. Cependant, ces stratégies d'attribution reposent principalement sur des heuristiques, manquant d'une analyse théorique approfondie. Dans cet article, nous étudions d'abord comment différentes stratégies d'attribution impactent les capacités de contexte étendu des VLMs. Notre analyse révèle que les RoPE multimodales actuelles ne parviennent pas à capturer de manière fiable les similarités sémantiques sur des contextes étendus. Pour résoudre ce problème, nous proposons HoPE, une incorporation de position hybride conçue pour améliorer les capacités de contexte étendu des VLMs. HoPE introduit une stratégie d'attribution de fréquences hybrides pour une modélisation sémantique fiable sur des contextes arbitrairement longs, ainsi qu'un mécanisme de mise à l'échelle temporelle dynamique pour faciliter un apprentissage robuste et une inférence flexible sur des longueurs de contexte variées. Des expériences approfondies sur quatre benchmarks vidéo pour des tâches de compréhension et de recherche de vidéos longues démontrent que HoPE surpasse systématiquement les méthodes existantes, confirmant son efficacité. Le code est disponible à l'adresse https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.Summary
AI-Generated Summary