HLFormer : Amélioration de la recherche de vidéos partiellement pertinentes grâce à l'apprentissage hyperbolique
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
papers.authors: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
papers.abstract
La récupération de vidéos partiellement pertinentes (PRVR) aborde le défi crucial de l'appariement de vidéos non découpées avec des requêtes textuelles décrivant uniquement un contenu partiel. Les méthodes existantes souffrent de distorsions géométriques dans l'espace euclidien, ce qui peut parfois mal représenter la structure hiérarchique intrinsèque des vidéos et négliger certaines sémantiques hiérarchiques, conduisant finalement à une modélisation temporelle sous-optimale. Pour résoudre ce problème, nous proposons le premier cadre de modélisation hyperbolique pour la PRVR, nommé HLFormer, qui exploite l'apprentissage dans l'espace hyperbolique pour compenser les capacités de modélisation hiérarchique sous-optimales de l'espace euclidien. Plus précisément, HLFormer intègre le bloc d'attention de Lorentz et le bloc d'attention euclidien pour encoder les embeddings vidéo dans des espaces hybrides, en utilisant le module d'interaction adaptative guidé par la moyenne pour fusionner dynamiquement les caractéristiques. De plus, nous introduisons une perte de préservation de l'ordre partiel pour imposer la hiérarchie "texte < vidéo" à travers les contraintes du cône lorentzien. Cette approche améliore encore l'appariement intermodal en renforçant la pertinence partielle entre le contenu vidéo et les requêtes textuelles. Des expériences approfondies montrent que HLFormer surpasse les méthodes de pointe. Le code est disponible à l'adresse https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.