RANKVIDEO: 텍스트-비디오 검색을 위한 추론 기반 재순위 지정
RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
February 2, 2026
저자: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI
초록
리랭킹은 일반적으로 효율적인 1단계 검색기와 표현력이 뛰어난 모델을 결합해 결과를 정제하는 현대 검색 시스템의 핵심 구성 요소입니다. 대규모 추론 모델이 텍스트 중심 리랭킹에서 빠른 발전을 주도했지만, 비디오 검색을 위한 추론 기반 리랭킹은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 비디오 콘텐츠를 활용해 쿼리-비디오 쌍을 명시적으로 추론하여 관련성을 평가하는 추론 기반 비디오 리랭커인 RANKVIDEO를 소개합니다. RANKVIDEO는 인식 기반 지도 미세 조정과 포인트와이즈, 페어와이즈, 교사 신뢰도 증류 목적을 결합한 리랭킹 훈련으로 구성된 2단계 커리큘럼을 통해 훈련되며, 추론 집약적 쿼리-비디오 쌍 구축을 위한 데이터 합성 파이프라인으로 지원됩니다. 대규모 MultiVENT 2.0 벤치마크 실험 결과, RANKVIDEO는 2단계 프레임워크 내에서 검색 성능을 지속적으로 향상시켜 nDCG@10에서 평균 31%의 개선을 달성하며, 텍스트 전용 및 시각-언어 리랭킹 대안들을 능가하는 동시에 더 효율적인 것으로 나타났습니다.
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.