ChatPaper.aiChatPaper

RANKVIDEO: Riassegnazione dei Rank basata sul Ragionamento per il Recupero Video da Testo

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

February 2, 2026
Autori: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI

Abstract

Il riordinamento è un componente critico dei moderni sistemi di recupero dell'informazione, che tipicamente abbinano un primo stadio di recupero efficiente a un modello più espressivo per affinare i risultati. Sebbene i grandi modelli di ragionamento abbiano guidato rapidi progressi nel riordinamento incentrato sul testo, il riordinamento basato sul ragionamento per il recupero video rimane poco esplorato. Per colmare questa lacuna, introduciamo RANKVIDEO, un riordinatore basato sul ragionamento per il recupero video che ragiona esplicitamente sulle coppie query-video utilizzando il contenuto video per valutarne la rilevanza. RANKVIDEO viene addestrato utilizzando un curriculum a due stadi, costituito da una messa a punto supervisionata ancorata alla percezione, seguita da un addestramento al riordinamento che combina obiettivi pointwise, pairwise e di distillazione della confidenza del docente, ed è supportato da una pipeline di sintesi dei dati per costruire coppie query-video ad alta intensità di ragionamento. Esperimenti condotti sul benchmark su larga scala MultiVENT 2.0 dimostrano che RANKVIDEO migliora costantemente le prestazioni di recupero all'interno di un'architettura a due stadi, producendo un miglioramento medio del 31% sull'nDCG@10 e superando le alternative di riordinamento basate solo sul testo e sul linguaggio visivo, risultando al contempo più efficiente.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.
PDF183March 19, 2026