RANKVIDEO: Reranking por Raciocínio para Recuperação de Texto para Vídeo

Resumo

O reranking é um componente crítico dos sistemas modernos de recuperação, que normalmente combinam um recuperador eficiente de primeira fase com um modelo mais expressivo para refinar os resultados. Embora os grandes modelos de raciocínio tenham impulsionado avanços rápidos no reranking centrado em texto, o reranking baseado em raciocínio para recuperação de vídeo permanece pouco explorado. Para preencher esta lacuna, apresentamos o RANKVIDEO, um reranker baseado em raciocínio para recuperação de vídeo que explicitamente raciocina sobre pares consulta-vídeo usando o conteúdo do vídeo para avaliar a relevância. O RANKVIDEO é treinado usando um currículo de dois estágios consistindo em um ajuste fino supervisionado com base perceptual, seguido por um treinamento de reranking que combina objetivos pontuais, pareados e de destilação de confiança do professor, sendo apoiado por um pipeline de síntese de dados para construir pares consulta-vídeo intensivos em raciocínio. Experimentos no benchmark em larga escala MultiVENT 2.0 demonstram que o RANKVIDEO melhora consistentemente o desempenho da recuperação dentro de uma estrutura de dois estágios, produzindo uma melhoria média de 31% no nDCG@10 e superando alternativas de reranking baseadas apenas em texto e em visão-linguagem, sendo ainda mais eficiente.

English

Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.