HLFormer: Улучшение поиска частично релевантных видео с использованием гиперболического обучения

Аннотация

Частично релевантный поиск видео (PRVR) решает важную задачу сопоставления необрезанных видео с текстовыми запросами, описывающими только частичное содержание. Существующие методы страдают от геометрических искажений в евклидовом пространстве, которые иногда искажают внутреннюю иерархическую структуру видео и упускают определённые иерархические семантики, что в конечном итоге приводит к неоптимальному временному моделированию. Для решения этой проблемы мы предлагаем первую гиперболическую модель для PRVR, а именно HLFormer, которая использует обучение в гиперболическом пространстве для компенсации недостатков иерархического моделирования в евклидовом пространстве. В частности, HLFormer интегрирует блок внимания Лоренца и блок евклидова внимания для кодирования видео-эмбеддингов в гибридных пространствах, используя модуль адаптивного взаимодействия с усреднением для динамического слияния признаков. Кроме того, мы вводим функцию потерь сохранения частичного порядка, чтобы обеспечить иерархию "текст < видео" через ограничения конуса Лоренца. Этот подход дополнительно улучшает кросс-модальное сопоставление, усиливая частичную релевантность между содержанием видео и текстовыми запросами. Многочисленные эксперименты показывают, что HLFormer превосходит современные методы. Код доступен по адресу https://github.com/lijun2005/ICCV25-HLFormer.

English

Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.