ChatPaper.aiChatPaper

HLFormer : Amélioration de la recherche de vidéos partiellement pertinentes grâce à l'apprentissage hyperbolique

HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

July 23, 2025
papers.authors: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI

papers.abstract

La récupération de vidéos partiellement pertinentes (PRVR) aborde le défi crucial de l'appariement de vidéos non découpées avec des requêtes textuelles décrivant uniquement un contenu partiel. Les méthodes existantes souffrent de distorsions géométriques dans l'espace euclidien, ce qui peut parfois mal représenter la structure hiérarchique intrinsèque des vidéos et négliger certaines sémantiques hiérarchiques, conduisant finalement à une modélisation temporelle sous-optimale. Pour résoudre ce problème, nous proposons le premier cadre de modélisation hyperbolique pour la PRVR, nommé HLFormer, qui exploite l'apprentissage dans l'espace hyperbolique pour compenser les capacités de modélisation hiérarchique sous-optimales de l'espace euclidien. Plus précisément, HLFormer intègre le bloc d'attention de Lorentz et le bloc d'attention euclidien pour encoder les embeddings vidéo dans des espaces hybrides, en utilisant le module d'interaction adaptative guidé par la moyenne pour fusionner dynamiquement les caractéristiques. De plus, nous introduisons une perte de préservation de l'ordre partiel pour imposer la hiérarchie "texte < vidéo" à travers les contraintes du cône lorentzien. Cette approche améliore encore l'appariement intermodal en renforçant la pertinence partielle entre le contenu vidéo et les requêtes textuelles. Des expériences approfondies montrent que HLFormer surpasse les méthodes de pointe. Le code est disponible à l'adresse https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.
PDF41July 25, 2025