HLFormer: Verbesserung der teilweise relevanten Videorückgewinnung durch hyperbolisches Lernen
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
papers.authors: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
papers.abstract
Partially Relevant Video Retrieval (PRVR) befasst sich mit der entscheidenden Herausforderung, ungeschnittene Videos mit Textanfragen abzugleichen, die nur Teilinhalte beschreiben. Bestehende Methoden leiden unter geometrischer Verzerrung im euklidischen Raum, die manchmal die intrinsische hierarchische Struktur von Videos falsch darstellt und bestimmte hierarchische Semantiken übersieht, was letztendlich zu suboptimaler zeitlicher Modellierung führt. Um dieses Problem zu lösen, schlagen wir das erste hyperbolische Modellierungsframework für PRVR vor, nämlich HLFormer, das hyperbolisches Raumlernen nutzt, um die suboptimalen hierarchischen Modellierungsfähigkeiten des euklidischen Raums zu kompensieren. Konkret integriert HLFormer den Lorentz-Attention-Block und den Euklidischen-Attention-Block, um Video-Embeddings in hybriden Räumen zu kodieren, wobei das Mean-Guided Adaptive Interaction Module zur dynamischen Fusion von Merkmalen verwendet wird. Zusätzlich führen wir einen Partial Order Preservation Loss ein, der die Hierarchie „Text < Video“ durch Lorentz-Kegel-Beschränkungen erzwingt. Dieser Ansatz verbessert das cross-modale Matching weiter, indem er die partielle Relevanz zwischen Videoinhalten und Textanfragen verstärkt. Umfangreiche Experimente zeigen, dass HLFormer state-of-the-art Methoden übertrifft. Der Code ist unter https://github.com/lijun2005/ICCV25-HLFormer veröffentlicht.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.