ChatPaper.aiChatPaper

Stima Bidirezionale della Verosimiglianza con Modelli Linguistici Multimodali di Grande Scala per il Recupero Testo-Video

Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

July 31, 2025
Autori: Dohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim
cs.AI

Abstract

Il Text-Video Retrieval mira a trovare il candidato testuale (o video) più rilevante dato un query video (o testuale) da grandi database online. Recenti lavori sfruttano modelli linguistici multimodali di grandi dimensioni (MLLMs) per migliorare il recupero, specialmente per coppie query-candidato lunghe o complesse. Tuttavia, osserviamo che l'applicazione ingenua degli MLLMs, ovvero il recupero basato sulla probabilità del candidato, introduce un bias del prior del candidato, favorendo candidati con prior intrinsecamente più alti rispetto a quelli più rilevanti per la query. A tal fine, proponiamo un nuovo framework di recupero, Bidirectional Likelihood Estimation with MLLM (BLiM), che sfrutta sia le probabilità della query che del candidato addestrando il modello a generare testo da un video dato e caratteristiche video da un testo dato. Inoltre, introduciamo Candidate Prior Normalization (CPN), un modulo di calibrazione del punteggio semplice ma efficace progettato per mitigare il bias del prior del candidato nella probabilità del candidato. Su quattro benchmark di Text-Video Retrieval, il nostro BLiM equipaggiato con CPN supera i precedenti modelli state-of-the-art di 6.4 R@1 in media, allevando efficacemente il bias del prior del candidato e enfatizzando la rilevanza query-candidato. La nostra analisi approfondita su varie attività multimodali oltre il recupero evidenzia l'ampia applicabilità di CPN che migliora la comprensione visiva riducendo la dipendenza dai prior testuali. Il codice è disponibile su https://github.com/mlvlab/BLiM.
English
Text-Video Retrieval aims to find the most relevant text (or video) candidate given a video (or text) query from large-scale online databases. Recent work leverages multi-modal large language models (MLLMs) to improve retrieval, especially for long or complex query-candidate pairs. However, we observe that the naive application of MLLMs, i.e., retrieval based on candidate likelihood, introduces candidate prior bias, favoring candidates with inherently higher priors over those more relevant to the query. To this end, we propose a novel retrieval framework, Bidirectional Likelihood Estimation with MLLM (BLiM), which leverages both query and candidate likelihoods by training the model to generate text from a given video as well as video features from a given text. Furthermore, we introduce Candidate Prior Normalization (CPN), a simple yet effective training-free score calibration module designed to mitigate candidate prior bias in candidate likelihood. On four Text-Video Retrieval benchmarks, our BLiM equipped with CPN outperforms previous state-of-the-art models by 6.4 R@1 on average, effectively alleviating candidate prior bias and emphasizing query-candidate relevance. Our in-depth analysis across various multi-modal tasks beyond retrieval highlights the broad applicability of CPN which enhances visual understanding by reducing reliance on textual priors. Code is available at https://github.com/mlvlab/BLiM.
PDF32August 6, 2025