ChatPaper.aiChatPaper

RANKVIDEO: テキスト-ビデオ検索のための推論リランキング手法

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

February 2, 2026
著者: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz
cs.AI

要旨

リランキングは現代の検索システムにおける重要な構成要素であり、通常、効率的な第一段階の検索器と、結果を精密化するための表現力豊かなモデルを組み合わせる。大規模推論モデルがテキスト中心のリランキングで急速な進展を遂げている一方で、映像検索における推論ベースのリランキングは未開拓の領域である。この課題に対処するため、本論文ではRANKVIDEOを提案する。これは映像検索のための推論ベースのリランキングモデルであり、クエリと映像のペアについて映像コンテンツを活用して明示的に推論し、関連性を評価する。RANKVIDEOは、知覚に基づく教師ありファインチューニングと、ポイントワイズ・ペアワイズ目的関数および教師モデルの信頼度蒸留を組み合わせたリランキング訓練からなる2段階カリキュラムで学習される。さらに、推論を要するクエリ-映像ペアを構築するためのデータ合成パイプラインによって支援されている。大規模ベンチマークMultiVENT 2.0における実験により、RANKVIDEOが2段階フレームワーク内で検索性能を一貫して向上させ、nDCG@10で平均31%の改善をもたらし、テキストのみまたは視覚言語リランキング手法を上回りながら、より効率的であることが実証された。
English
Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.
PDF161February 5, 2026