HoPE: Hybride Positions-Einbettung für Längengeneralisierung in Vision-Sprache-Modellen

papers.abstract

Vision-Language-Modelle (VLMs) haben bedeutende Fortschritte bei multimodalen Aufgaben erzielt. Allerdings verschlechtert sich ihre Leistung häufig in Langzeitkontext-Szenarien, insbesondere bei langen Videos. Während Rotary Position Embedding (RoPE) weit verbreitet für die Längengeneralisierung in Large Language Models (LLMs) eingesetzt wird, bleibt die Erweiterung des Standard-RoPE zur Erfassung der komplexen räumlich-zeitlichen Abhängigkeiten in Videos eine ungelöste Herausforderung. Bestehende Methoden weisen typischerweise unterschiedliche Frequenzen innerhalb von RoPE zu, um 3D-Positionsinformationen zu kodieren. Diese Zuordnungsstrategien basieren jedoch hauptsächlich auf Heuristiken und es fehlt an tiefergehender theoretischer Analyse. In diesem Artikel untersuchen wir zunächst, wie verschiedene Zuordnungsstrategien die Langzeitkontext-Fähigkeiten von VLMs beeinflussen. Unsere Analyse zeigt, dass aktuelle multimodale RoPEs semantische Ähnlichkeiten über längere Kontexte nicht zuverlässig erfassen können. Um dieses Problem zu lösen, schlagen wir HoPE vor, ein Hybrid Position Embedding, das entwickelt wurde, um die Langzeitkontext-Fähigkeiten von VLMs zu verbessern. HoPE führt eine hybride Frequenzzuordnungsstrategie für zuverlässige semantische Modellierung über beliebig lange Kontexte ein und einen dynamischen temporalen Skalierungsmechanismus, um robustes Lernen und flexible Inferenz über verschiedene Kontextlängen zu ermöglichen. Umfangreiche Experimente über vier Video-Benchmarks für Aufgaben zur Langzeitvideo-Verständnis und -Rückgewinnung zeigen, dass HoPE bestehende Methoden durchgängig übertrifft und seine Wirksamkeit bestätigt. Der Code ist verfügbar unter https://github.com/hrlics/HoPE.

English

Vision-Language Models (VLMs) have made significant progress in multimodal tasks. However, their performance often deteriorates in long-context scenarios, particularly long videos. While Rotary Position Embedding (RoPE) has been widely adopted for length generalization in Large Language Models (LLMs), extending vanilla RoPE to capture the intricate spatial-temporal dependencies in videos remains an unsolved challenge. Existing methods typically allocate different frequencies within RoPE to encode 3D positional information. However, these allocation strategies mainly rely on heuristics, lacking in-depth theoretical analysis. In this paper, we first study how different allocation strategies impact the long-context capabilities of VLMs. Our analysis reveals that current multimodal RoPEs fail to reliably capture semantic similarities over extended contexts. To address this issue, we propose HoPE, a Hybrid of Position Embedding designed to improve the long-context capabilities of VLMs. HoPE introduces a hybrid frequency allocation strategy for reliable semantic modeling over arbitrarily long context, and a dynamic temporal scaling mechanism to facilitate robust learning and flexible inference across diverse context lengths. Extensive experiments across four video benchmarks on long video understanding and retrieval tasks demonstrate that HoPE consistently outperforms existing methods, confirming its effectiveness. Code is available at https://github.com/hrlics/HoPE.

HoPE: Hybride Positions-Einbettung für Längengeneralisierung in Vision-Sprache-Modellen

HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

papers.abstract

Support