HLFormer: Улучшение поиска частично релевантных видео с использованием гиперболического обучения
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
July 23, 2025
Авторы: Li Jun, Wang Jinpeng, Tan Chaolei, Lian Niu, Chen Long, Zhang Min, Wang Yaowei, Xia Shu-Tao, Chen Bin
cs.AI
Аннотация
Частично релевантный поиск видео (PRVR) решает важную задачу сопоставления необрезанных видео с текстовыми запросами, описывающими только частичное содержание. Существующие методы страдают от геометрических искажений в евклидовом пространстве, которые иногда искажают внутреннюю иерархическую структуру видео и упускают определённые иерархические семантики, что в конечном итоге приводит к неоптимальному временному моделированию. Для решения этой проблемы мы предлагаем первую гиперболическую модель для PRVR, а именно HLFormer, которая использует обучение в гиперболическом пространстве для компенсации недостатков иерархического моделирования в евклидовом пространстве. В частности, HLFormer интегрирует блок внимания Лоренца и блок евклидова внимания для кодирования видео-эмбеддингов в гибридных пространствах, используя модуль адаптивного взаимодействия с усреднением для динамического слияния признаков. Кроме того, мы вводим функцию потерь сохранения частичного порядка, чтобы обеспечить иерархию "текст < видео" через ограничения конуса Лоренца. Этот подход дополнительно улучшает кросс-модальное сопоставление, усиливая частичную релевантность между содержанием видео и текстовыми запросами. Многочисленные эксперименты показывают, что HLFormer превосходит современные методы. Код доступен по адресу https://github.com/lijun2005/ICCV25-HLFormer.
English
Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of
matching untrimmed videos with text queries describing only partial content.
Existing methods suffer from geometric distortion in Euclidean space that
sometimes misrepresents the intrinsic hierarchical structure of videos and
overlooks certain hierarchical semantics, ultimately leading to suboptimal
temporal modeling. To address this issue, we propose the first hyperbolic
modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space
learning to compensate for the suboptimal hierarchical modeling capabilities of
Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block
and Euclidean Attention Block to encode video embeddings in hybrid spaces,
using the Mean-Guided Adaptive Interaction Module to dynamically fuse features.
Additionally, we introduce a Partial Order Preservation Loss to enforce "text <
video" hierarchy through Lorentzian cone constraints. This approach further
enhances cross-modal matching by reinforcing partial relevance between video
content and text queries. Extensive experiments show that HLFormer outperforms
state-of-the-art methods. Code is released at
https://github.com/lijun2005/ICCV25-HLFormer.