ChatPaper.aiChatPaper

HLFormer: 부분적으로 관련된 비디오 검색을 쌍곡 학습으로 강화

HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning

July 23, 2025
저자: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI

초록

부분적 관련성 비디오 검색(Partially Relevant Video Retrieval, PRVR)은 전체 내용이 아닌 부분적인 내용만을 설명하는 텍스트 쿼리와 트리밍되지 않은 비디오를 매칭하는 중요한 과제를 다룹니다. 기존 방법들은 유클리드 공간에서의 기하학적 왜곡으로 인해 비디오의 내재적 계층 구조를 잘못 표현하거나 특정 계층적 의미를 간과하여, 궁극적으로 최적이 아닌 시간적 모델링을 초래하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 PRVR을 위한 최초의 쌍곡면 모델링 프레임워크인 HLFormer를 제안합니다. HLFormer는 쌍곡면 공간 학습을 활용하여 유클리드 공간의 최적이 아닌 계층적 모델링 능력을 보완합니다. 구체적으로, HLFormer는 Lorentz Attention Block과 Euclidean Attention Block을 통합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 사용하여 특징을 동적으로 융합합니다. 또한, 우리는 Lorentzian cone 제약을 통해 "텍스트 < 비디오" 계층 구조를 강제하는 Partial Order Preservation Loss를 도입했습니다. 이 접근법은 비디오 콘텐츠와 텍스트 쿼리 간의 부분적 관련성을 강화함으로써 크로스 모달 매칭을 더욱 향상시킵니다. 광범위한 실험 결과, HLFormer가 최신 방법들을 능가하는 성능을 보여줍니다. 코드는 https://github.com/lijun2005/ICCV25-HLFormer에서 공개되었습니다.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.
PDF41July 25, 2025