HLFormer: Aprimorando a Recuperação de Vídeos Parcialmente Relevantes com Aprendizado Hiperbólico
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
Autores: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
Resumo
A Recuperação de Vídeos Parcialmente Relevantes (PRVR) aborda o desafio crítico de corresponder vídeos não editados com consultas de texto que descrevem apenas conteúdo parcial. Os métodos existentes sofrem com distorções geométricas no espaço euclidiano que, por vezes, representam erroneamente a estrutura hierárquica intrínseca dos vídeos e negligenciam certas semânticas hierárquicas, resultando em uma modelagem temporal subótima. Para resolver esse problema, propomos o primeiro framework de modelagem hiperbólica para PRVR, denominado HLFormer, que aproveita o aprendizado em espaço hiperbólico para compensar as capacidades subótimas de modelagem hierárquica do espaço euclidiano. Especificamente, o HLFormer integra o Bloco de Atenção Lorentziano e o Bloco de Atenção Euclidiano para codificar embeddings de vídeo em espaços híbridos, utilizando o Módulo de Interação Adaptativa Guiada por Média para fundir dinamicamente as características. Além disso, introduzimos uma Função de Perda de Preservação de Ordem Parcial para impor a hierarquia "texto < vídeo" por meio de restrições de cone lorentziano. Essa abordagem aprimora ainda mais a correspondência multimodal ao reforçar a relevância parcial entre o conteúdo do vídeo e as consultas de texto. Experimentos extensivos demonstram que o HLFormer supera os métodos state-of-the-art. O código está disponível em https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.