HLFormer: Verbetering van gedeeltelijk relevante videoretrieval met hyperbolisch leren
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
Auteurs: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
Samenvatting
Gedeeltelijk Relevante Video Retrieval (PRVR) behandelt de cruciale uitdaging van het matchen van onbewerkte video's met tekstquery's die slechts gedeeltelijke inhoud beschrijven. Bestaande methoden lijden onder geometrische vervorming in de Euclidische ruimte, wat soms de intrinsieke hiërarchische structuur van video's verkeerd weergeeft en bepaalde hiërarchische semantiek over het hoofd ziet, wat uiteindelijk leidt tot suboptimale temporele modellering. Om dit probleem aan te pakken, stellen we het eerste hyperbolische modelleringsframework voor PRVR voor, genaamd HLFormer, dat gebruikmaakt van hyperbolische ruimteleer om de suboptimale hiërarchische modelleringsmogelijkheden van de Euclidische ruimte te compenseren. Specifiek integreert HLFormer het Lorentz Attention Block en het Euclidean Attention Block om video-embeddings te coderen in hybride ruimtes, waarbij het Mean-Guided Adaptive Interaction Module wordt gebruikt om features dynamisch te fuseren. Daarnaast introduceren we een Partial Order Preservation Loss om de "text < video" hiërarchie af te dwingen door middel van Lorentzian cone constraints. Deze aanpak verbetert verder de cross-modale matching door de gedeeltelijke relevantie tussen video-inhoud en tekstquery's te versterken. Uitgebreide experimenten tonen aan dat HLFormer state-of-the-art methoden overtreft. De code is vrijgegeven op https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.