HoPE: Ibridazione degli Embedding Posizionali per la Generalizzazione della Lunghezza nei Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nei compiti multimodali. Tuttavia, le loro prestazioni spesso si deteriorano in scenari a contesto lungo, in particolare nei video lunghi. Sebbene il Rotary Position Embedding (RoPE) sia stato ampiamente adottato per la generalizzazione della lunghezza nei Large Language Models (LLMs), estendere il RoPE standard per catturare le complesse dipendenze spazio-temporali nei video rimane una sfida irrisolta. I metodi esistenti tipicamente assegnano diverse frequenze all'interno del RoPE per codificare informazioni posizionali 3D. Tuttavia, queste strategie di allocazione si basano principalmente su euristiche, mancando di un'analisi teorica approfondita. In questo articolo, studiamo per la prima volta come diverse strategie di allocazione influenzino le capacità a contesto lungo dei VLMs. La nostra analisi rivela che gli attuali RoPE multimodali non riescono a catturare in modo affidabile le similarità semantiche su contesti estesi. Per affrontare questo problema, proponiamo HoPE, un Hybrid of Position Embedding progettato per migliorare le capacità a contesto lungo dei VLMs. HoPE introduce una strategia di allocazione delle frequenze ibrida per una modellazione semantica affidabile su contesti arbitrariamente lunghi, e un meccanismo di scaling temporale dinamico per facilitare un apprendimento robusto e un'inferenza flessibile su diverse lunghezze di contesto. Esperimenti estesi su quattro benchmark video per compiti di comprensione e recupero di video lunghi dimostrano che HoPE supera costantemente i metodi esistenti, confermandone l'efficacia. Il codice è disponibile all'indirizzo https://github.com/hrlics/HoPE.

English

Vision-Language Models (VLMs) have made significant progress in multimodal tasks. However, their performance often deteriorates in long-context scenarios, particularly long videos. While Rotary Position Embedding (RoPE) has been widely adopted for length generalization in Large Language Models (LLMs), extending vanilla RoPE to capture the intricate spatial-temporal dependencies in videos remains an unsolved challenge. Existing methods typically allocate different frequencies within RoPE to encode 3D positional information. However, these allocation strategies mainly rely on heuristics, lacking in-depth theoretical analysis. In this paper, we first study how different allocation strategies impact the long-context capabilities of VLMs. Our analysis reveals that current multimodal RoPEs fail to reliably capture semantic similarities over extended contexts. To address this issue, we propose HoPE, a Hybrid of Position Embedding designed to improve the long-context capabilities of VLMs. HoPE introduces a hybrid frequency allocation strategy for reliable semantic modeling over arbitrarily long context, and a dynamic temporal scaling mechanism to facilitate robust learning and flexible inference across diverse context lengths. Extensive experiments across four video benchmarks on long video understanding and retrieval tasks demonstrate that HoPE consistently outperforms existing methods, confirming its effectiveness. Code is available at https://github.com/hrlics/HoPE.

HoPE: Ibridazione degli Embedding Posizionali per la Generalizzazione della Lunghezza nei Modelli Visione-Linguaggio

HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

Abstract

Support