RANKVIDEO: Reasoning-Reranking für die Text-zu-Video-Retrieval
RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
February 2, 2026
papers.authors: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI
papers.abstract
Reranking ist eine entscheidende Komponente moderner Retrieval-Systeme, die typischerweise einen effizienten Erststufen-Retriever mit einem ausdrucksstärkeren Modell kombinieren, um Ergebnisse zu verfeinern. Während große Reasoning-Modelle rasche Fortschritte im textzentrierten Reranking vorangetrieben haben, ist reasoning-basiertes Reranking für die Videoretrieval noch wenig erforscht. Um diese Lücke zu schließen, stellen wir RANKVIDEO vor, einen reasoning-basierten Reranker für die Videoretrieval, der explizit über Query-Video-Paare unter Verwendung des Videoinhalts reasoniert, um die Relevanz zu bewerten. RANKVIDEO wird mittels eines zweistufigen Curriculums trainiert, das aus wahrnehmungsgestütztem supervised Fine-Tuning gefolgt von Reranking-Training besteht, das pointwise-, pairwise- und Teacher-Confidence-Distillation-Ziele kombiniert, und wird durch eine Data-Synthesis-Pipeline zur Konstruktion von reasoning-intensiven Query-Video-Paaren unterstützt. Experimente auf dem groß angelegten MultiVENT 2.0 Benchmark zeigen, dass RANKVIDEO die Retrieval-Leistung innerhalb eines zweistufigen Frameworks konsistent verbessert, durchschnittlich eine Steigerung von 31 % bei nDCG@10 erzielt und textbasierte sowie vision-language Reranking-Alternativen übertrifft, bei gleichzeitig höherer Effizienz.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.