HLFormer: Miglioramento del Recupero di Video Parzialmente Rilevanti con Apprendimento Iperbolico

Abstract

Il Recupero di Video Parzialmente Rilevanti (PRVR) affronta la sfida cruciale di abbinare video non tagliati con query testuali che descrivono solo contenuti parziali. I metodi esistenti soffrono di distorsione geometrica nello spazio euclideo, che talvolta rappresenta erroneamente la struttura gerarchica intrinseca dei video e trascura alcune semantiche gerarchiche, portando infine a una modellazione temporale subottimale. Per risolvere questo problema, proponiamo il primo framework di modellazione iperbolica per PRVR, denominato HLFormer, che sfrutta l'apprendimento nello spazio iperbolico per compensare le capacità subottimali di modellazione gerarchica dello spazio euclideo. Nello specifico, HLFormer integra il Lorentz Attention Block e l'Euclidean Attention Block per codificare gli embedding video in spazi ibridi, utilizzando il Mean-Guided Adaptive Interaction Module per fondere dinamicamente le caratteristiche. Inoltre, introduciamo una Partial Order Preservation Loss per imporre la gerarchia "testo < video" attraverso i vincoli del cono lorentziano. Questo approccio migliora ulteriormente l'abbinamento cross-modale rafforzando la rilevanza parziale tra il contenuto video e le query testuali. Esperimenti estensivi dimostrano che HLFormer supera i metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/lijun2005/ICCV25-HLFormer.

English

Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.

HLFormer: Miglioramento del Recupero di Video Parzialmente Rilevanti con Apprendimento Iperbolico

HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

Abstract

Support