ChatPaper.aiChatPaper

RANKVIDEO: Reordenamiento por Razonamiento para la Recuperación de Vídeo a partir de Texto

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

February 2, 2026
Autores: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI

Resumen

La rerclasificación es un componente crítico de los sistemas de recuperación modernos, que normalmente combinan un recuperador eficiente de primera etapa con un modelo más expresivo para refinar los resultados. Si bien los grandes modelos de razonamiento han impulsado avances rápidos en la rerclasificación centrada en texto, la rerclasificación basada en razonamiento para la recuperación de vídeo sigue estando poco explorada. Para abordar esta brecha, presentamos RANKVIDEO, un rerclasificador basado en razonamiento para la recuperación de vídeo que razona explícitamente sobre pares consulta-vídeo utilizando el contenido del vídeo para evaluar la relevancia. RANKVIDEO se entrena mediante un currículum de dos etapas que consiste en un ajuste fino supervisado basado en percepción, seguido de un entrenamiento de rerclasificación que combina objetivos de distilación de puntos, pares y confianza del profesor, y está respaldado por una canalización de síntesis de datos para construir pares consulta-vídeo intensivos en razonamiento. Los experimentos en el benchmark a gran escala MultiVENT 2.0 demuestran que RANKVIDEO mejora consistentemente el rendimiento de recuperación dentro de un marco de dos etapas, produciendo una mejora promedio del 31% en nDCG@10 y superando a alternativas de rerclasificación basadas solo en texto y en lenguaje visual, siendo además más eficiente.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.
PDF161February 5, 2026