RANKVIDEO: Redeneren Herschikken voor Tekst-naar-Video Retrieval
RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
February 2, 2026
Auteurs: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI
Samenvatting
Herrangschikking is een cruciaal onderdeel van moderne retrievalsystemen, waarbij doorgaans een efficiënte eerste-fase-retriever wordt gecombineerd met een expressiever model om resultaten te verfijnen. Hoewel grote redeneermodellen een snelle vooruitgang hebben geboekt bij tekstgecentreerde herrangschikking, blijft op redeneren gebaseerde herrangschikking voor videoretrieval onderbelicht. Om deze leemte op te vullen, introduceren we RANKVIDEO, een op redeneren gebaseerde herrangschikker voor videoretrieve die expliciet redeneert over query-videoparen met behulp van videocontent om relevantie te beoordelen. RANKVIDEO wordt getraind met een tweefasencurriculum bestaande uit perceptie-gestuurde supervised fine-tuning, gevolgd door herrangschikkingstraining die pointwise-, pairwise- en teacher confidence-distillatiedoelen combineert, ondersteund door een datasynthesepijplijn voor het construeren van reasoning-intensieve query-videoparen. Experimenten op de grootschalige MultiVENT 2.0-benchmark tonen aan dat RANKVIDEO consistent de retrievalprestaties binnen een tweefasenraamwerk verbetert, met een gemiddelde verbetering van 31% op nDCG@10, en beter presteert dan tekstuele en vision-language-alternatieven voor herrangschikking, terwijl het efficiënter is.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.