HoPE: Hybride Positions-Einbettung für Längengeneralisierung in Vision-Sprache-Modellen
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
May 26, 2025
Autoren: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) haben bedeutende Fortschritte bei multimodalen Aufgaben erzielt. Allerdings verschlechtert sich ihre Leistung häufig in Langzeitkontext-Szenarien, insbesondere bei langen Videos. Während Rotary Position Embedding (RoPE) weit verbreitet für die Längengeneralisierung in Large Language Models (LLMs) eingesetzt wird, bleibt die Erweiterung des Standard-RoPE zur Erfassung der komplexen räumlich-zeitlichen Abhängigkeiten in Videos eine ungelöste Herausforderung. Bestehende Methoden weisen typischerweise unterschiedliche Frequenzen innerhalb von RoPE zu, um 3D-Positionsinformationen zu kodieren. Diese Zuordnungsstrategien basieren jedoch hauptsächlich auf Heuristiken und es fehlt an tiefergehender theoretischer Analyse. In diesem Artikel untersuchen wir zunächst, wie verschiedene Zuordnungsstrategien die Langzeitkontext-Fähigkeiten von VLMs beeinflussen. Unsere Analyse zeigt, dass aktuelle multimodale RoPEs semantische Ähnlichkeiten über längere Kontexte nicht zuverlässig erfassen können. Um dieses Problem zu lösen, schlagen wir HoPE vor, ein Hybrid Position Embedding, das entwickelt wurde, um die Langzeitkontext-Fähigkeiten von VLMs zu verbessern. HoPE führt eine hybride Frequenzzuordnungsstrategie für zuverlässige semantische Modellierung über beliebig lange Kontexte ein und einen dynamischen temporalen Skalierungsmechanismus, um robustes Lernen und flexible Inferenz über verschiedene Kontextlängen zu ermöglichen. Umfangreiche Experimente über vier Video-Benchmarks für Aufgaben zur Langzeitvideo-Verständnis und -Rückgewinnung zeigen, dass HoPE bestehende Methoden durchgängig übertrifft und seine Wirksamkeit bestätigt. Der Code ist verfügbar unter https://github.com/hrlics/HoPE.
English
Vision-Language Models (VLMs) have made significant progress in multimodal
tasks. However, their performance often deteriorates in long-context scenarios,
particularly long videos. While Rotary Position Embedding (RoPE) has been
widely adopted for length generalization in Large Language Models (LLMs),
extending vanilla RoPE to capture the intricate spatial-temporal dependencies
in videos remains an unsolved challenge. Existing methods typically allocate
different frequencies within RoPE to encode 3D positional information. However,
these allocation strategies mainly rely on heuristics, lacking in-depth
theoretical analysis. In this paper, we first study how different allocation
strategies impact the long-context capabilities of VLMs. Our analysis reveals
that current multimodal RoPEs fail to reliably capture semantic similarities
over extended contexts. To address this issue, we propose HoPE, a Hybrid of
Position Embedding designed to improve the long-context capabilities of VLMs.
HoPE introduces a hybrid frequency allocation strategy for reliable semantic
modeling over arbitrarily long context, and a dynamic temporal scaling
mechanism to facilitate robust learning and flexible inference across diverse
context lengths. Extensive experiments across four video benchmarks on long
video understanding and retrieval tasks demonstrate that HoPE consistently
outperforms existing methods, confirming its effectiveness. Code is available
at https://github.com/hrlics/HoPE.Summary
AI-Generated Summary