ユニバーサルビデオ検索を目指して:合成的マルチモーダルピラミッドカリキュラムによるビデオ埋め込みの一般化
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
著者: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
要旨
現在のビデオ検索パラダイムは構造的に不整合であり、限定的なベンチマークがそれに対応する狭いデータと単一タスク学習を促進している。このため、多次元的一般化を定義し要求する診断的評価が存在しないことから、普遍的な能力が抑制されている。この循環を打破するため、評価・データ・モデリングの協調設計に基づくフレームワークを提案する。まず、性能測定だけでなく、タスクとドメインにわたる重要な能力ギャップを診断するために設計された16のデータセットからなるUniversal Video Retrieval Benchmark(UVRB)を確立する。次に、UVRBの診断結果に導かれ、普遍性に必要な意味空間を充填するため155万の高品質ペアを生成するスケーラブルな合成ワークフローを導入する。最後に、多様なデータ内の潜在的な相互関係を明示的に活用してGeneral Video Embedder(GVE)を訓練するカリキュラムであるModality Pyramidを考案する。大規模な実験により、GVEがUVRBにおいて最先端のゼロショット一般化性能を達成することを示す。特に、広く用いられるベンチマークは一般能力の予測因子として不適切であり、部分的相关検索が支配的だが見過ごされているシナリオであることが分析により明らかになった。全体として、本協調設計フレームワークは、限られた範囲からの脱却と真に普遍的なビデオ検索への前進に向けた実用的な道筋を提供する。
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.