ChatPaper.aiChatPaper

RANKVIDEO : Raisonnement et reranking pour la recherche vidéo par texte

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

February 2, 2026
papers.authors: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI

papers.abstract

Le reranking est un composant essentiel des systèmes de recherche modernes, qui associent généralement un récupérateur efficace de première étape à un modèle plus expressif pour affiner les résultats. Si les grands modèles de raisonnement ont permis des progrès rapides dans le reranking centré sur le texte, le reranking basé sur le raisonnement pour la recherche vidéo reste peu exploré. Pour combler cette lacune, nous présentons RANKVIDEO, un reranker basé sur le raisonnement pour la recherche vidéo qui raisonne explicitement sur des paires requête-vidéo en utilisant le contenu vidéo pour évaluer la pertinence. RANKVIDEO est entraîné selon un curriculum en deux étapes comprenant un réglage fin supervisé ancré dans la perception, suivi d'un entraînement au reranking combinant des objectifs de distillation pointwise, pairwise et de confiance de l'enseignant, le tout soutenu par un pipeline de synthèse de données pour construire des paires requête-vidéo intensives en raisonnement. Les expériences sur le benchmark à grande échelle MultiVENT 2.0 démontrent que RANKVIDEO améliore constamment les performances de recherche dans un cadre à deux étapes, produisant une amélioration moyenne de 31% sur nDCG@10 et surpassant les alternatives de reranking textuel et vision-langage, tout en étant plus efficace.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.
PDF161February 5, 2026