Estimation bidirectionnelle de la vraisemblance avec des modèles de langage multi-modaux de grande taille pour la recherche texte-vidéo
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval
July 31, 2025
papers.authors: Dohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim
cs.AI
papers.abstract
La recherche texte-vidéo vise à identifier le candidat texte (ou vidéo) le plus pertinent étant donné une requête vidéo (ou texte) parmi de vastes bases de données en ligne. Les travaux récents exploitent des modèles de langage multi-modaux de grande taille (MLLMs) pour améliorer la recherche, en particulier pour les paires requête-candidat longues ou complexes. Cependant, nous observons que l'application naïve des MLLMs, c'est-à-dire la recherche basée sur la vraisemblance des candidats, introduit un biais de priorité des candidats, favorisant ceux ayant des priorités intrinsèquement plus élevées par rapport à ceux plus pertinents pour la requête. À cette fin, nous proposons un nouveau cadre de recherche, l'Estimation Bidirectionnelle de la Vraisemblance avec MLLM (BLiM), qui exploite à la fois les vraisemblances de la requête et des candidats en entraînant le modèle à générer du texte à partir d'une vidéo donnée ainsi que des caractéristiques vidéo à partir d'un texte donné. De plus, nous introduisons la Normalisation des Priorités des Candidats (CPN), un module de calibration de score simple mais efficace ne nécessitant pas d'entraînement, conçu pour atténuer le biais de priorité des candidats dans la vraisemblance des candidats. Sur quatre benchmarks de recherche texte-vidéo, notre BLiM équipé de CPN surpasse les modèles précédents de pointe par une moyenne de 6,4 R@1, atténuant efficacement le biais de priorité des candidats et mettant l'accent sur la pertinence requête-candidat. Notre analyse approfondie sur diverses tâches multi-modales au-delà de la recherche met en lumière l'applicabilité large de CPN, qui améliore la compréhension visuelle en réduisant la dépendance aux priorités textuelles. Le code est disponible à l'adresse https://github.com/mlvlab/BLiM.
English
Text-Video Retrieval aims to find the most relevant text (or video) candidate
given a video (or text) query from large-scale online databases. Recent work
leverages multi-modal large language models (MLLMs) to improve retrieval,
especially for long or complex query-candidate pairs. However, we observe that
the naive application of MLLMs, i.e., retrieval based on candidate likelihood,
introduces candidate prior bias, favoring candidates with inherently higher
priors over those more relevant to the query. To this end, we propose a novel
retrieval framework, Bidirectional Likelihood Estimation with MLLM (BLiM),
which leverages both query and candidate likelihoods by training the model to
generate text from a given video as well as video features from a given text.
Furthermore, we introduce Candidate Prior Normalization (CPN), a simple yet
effective training-free score calibration module designed to mitigate candidate
prior bias in candidate likelihood. On four Text-Video Retrieval benchmarks,
our BLiM equipped with CPN outperforms previous state-of-the-art models by 6.4
R@1 on average, effectively alleviating candidate prior bias and emphasizing
query-candidate relevance. Our in-depth analysis across various multi-modal
tasks beyond retrieval highlights the broad applicability of CPN which enhances
visual understanding by reducing reliance on textual priors. Code is available
at https://github.com/mlvlab/BLiM.