HLFormer: Mejorando la Recuperación de Videos Parcialmente Relevantes con Aprendizaje Hiperbólico
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
Autores: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
Resumen
La Recuperación de Videos Parcialmente Relevantes (PRVR, por sus siglas en inglés) aborda el desafío crítico de emparejar videos sin recortar con consultas de texto que describen solo contenido parcial. Los métodos existentes sufren de distorsión geométrica en el espacio euclidiano, lo que a veces representa incorrectamente la estructura jerárquica intrínseca de los videos y pasa por alto ciertas semánticas jerárquicas, lo que finalmente conduce a un modelado temporal subóptimo. Para abordar este problema, proponemos el primer marco de modelado hiperbólico para PRVR, denominado HLFormer, que aprovecha el aprendizaje en el espacio hiperbólico para compensar las capacidades subóptimas de modelado jerárquico del espacio euclidiano. Específicamente, HLFormer integra el Bloque de Atención de Lorentz y el Bloque de Atención Euclidiano para codificar incrustaciones de videos en espacios híbridos, utilizando el Módulo de Interacción Adaptativa Guiada por la Media para fusionar dinámicamente las características. Además, introducimos una Pérdida de Preservación de Orden Parcial para imponer la jerarquía "texto < video" a través de restricciones de cono lorentziano. Este enfoque mejora aún más el emparejamiento multimodal al reforzar la relevancia parcial entre el contenido del video y las consultas de texto. Experimentos extensos muestran que HLFormer supera a los métodos más avanzados. El código está disponible en https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.