HoPE: Ibridazione degli Embedding Posizionali per la Generalizzazione della Lunghezza nei Modelli Visione-Linguaggio
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Autori: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nei compiti multimodali. Tuttavia, le loro prestazioni spesso si deteriorano in scenari a contesto lungo, in particolare nei video lunghi. Sebbene il Rotary Position Embedding (RoPE) sia stato ampiamente adottato per la generalizzazione della lunghezza nei Large Language Models (LLMs), estendere il RoPE standard per catturare le complesse dipendenze spazio-temporali nei video rimane una sfida irrisolta. I metodi esistenti tipicamente assegnano diverse frequenze all'interno del RoPE per codificare informazioni posizionali 3D. Tuttavia, queste strategie di allocazione si basano principalmente su euristiche, mancando di un'analisi teorica approfondita. In questo articolo, studiamo per la prima volta come diverse strategie di allocazione influenzino le capacità a contesto lungo dei VLMs. La nostra analisi rivela che gli attuali RoPE multimodali non riescono a catturare in modo affidabile le similarità semantiche su contesti estesi. Per affrontare questo problema, proponiamo HoPE, un Hybrid of Position Embedding progettato per migliorare le capacità a contesto lungo dei VLMs. HoPE introduce una strategia di allocazione delle frequenze ibrida per una modellazione semantica affidabile su contesti arbitrariamente lunghi, e un meccanismo di scaling temporale dinamico per facilitare un apprendimento robusto e un'inferenza flessibile su diverse lunghezze di contesto. Esperimenti estesi su quattro benchmark video per compiti di comprensione e recupero di video lunghi dimostrano che HoPE supera costantemente i metodi esistenti, confermandone l'efficacia. Il codice è disponibile all'indirizzo https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.