ChatPaper.aiChatPaper

HLFormer: Verbesserung der teilweise relevanten Videorückgewinnung durch hyperbolisches Lernen

HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

July 23, 2025
papers.authors: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI

papers.abstract

Partially Relevant Video Retrieval (PRVR) befasst sich mit der entscheidenden Herausforderung, ungeschnittene Videos mit Textanfragen abzugleichen, die nur Teilinhalte beschreiben. Bestehende Methoden leiden unter geometrischer Verzerrung im euklidischen Raum, die manchmal die intrinsische hierarchische Struktur von Videos falsch darstellt und bestimmte hierarchische Semantiken übersieht, was letztendlich zu suboptimaler zeitlicher Modellierung führt. Um dieses Problem zu lösen, schlagen wir das erste hyperbolische Modellierungsframework für PRVR vor, nämlich HLFormer, das hyperbolisches Raumlernen nutzt, um die suboptimalen hierarchischen Modellierungsfähigkeiten des euklidischen Raums zu kompensieren. Konkret integriert HLFormer den Lorentz-Attention-Block und den Euklidischen-Attention-Block, um Video-Embeddings in hybriden Räumen zu kodieren, wobei das Mean-Guided Adaptive Interaction Module zur dynamischen Fusion von Merkmalen verwendet wird. Zusätzlich führen wir einen Partial Order Preservation Loss ein, der die Hierarchie „Text < Video“ durch Lorentz-Kegel-Beschränkungen erzwingt. Dieser Ansatz verbessert das cross-modale Matching weiter, indem er die partielle Relevanz zwischen Videoinhalten und Textanfragen verstärkt. Umfangreiche Experimente zeigen, dass HLFormer state-of-the-art Methoden übertrifft. Der Code ist unter https://github.com/lijun2005/ICCV25-HLFormer veröffentlicht.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.
PDF41July 25, 2025