Naar universele videoretrieval: Generalisatie van video-embedding via gesynthetiseerd multimodaal piramidecurriculum
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
Auteurs: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
Samenvatting
Het heersende paradigma voor videoretrieval is structureel misaligned, omdat smalle benchmarks even beperkte data en single-task training stimuleren. Hierdoor wordt universele capaciteit onderdrukt door het ontbreken van een diagnostische evaluatie die multidimensionale generalisatie definieert en vereist. Om deze cyclus te doorbreken, introduceren we een framework gebaseerd op de co-design van evaluatie, data en modellering. Ten eerste stellen we de Universal Video Retrieval Benchmark (UVRB) voor, een verzameling van 16 datasets die niet alleen prestaties meten, maar ook kritieke capaciteitshiaten tussen taken en domeinen diagnosticeren. Ten tweede, geleid door UVRB's diagnostiek, introduceren we een schaalbare syntheseworkflow die 1,55 miljoen hoogwaardige paren genereert om de semantische ruimte die nodig is voor universaliteit te vullen. Tot slot ontwikkelen we de Modality Pyramid, een curriculum dat onze General Video Embedder (GVE) traint door expliciet gebruik te maken van de latente verbanden binnen onze diverse data. Uitgebreide experimenten tonen aan dat GVE state-of-the-art zero-shot generalisatie bereikt op UVRB. Onze analyse onthult in het bijzonder dat populaire benchmarks slechte voorspellers zijn van algemeen vermogen, en dat gedeeltelijk relevante retrieval een dominant maar over het hoofd gezien scenario is. Al met al biedt ons co-designed framework een praktisch pad om te ontsnappen aan het beperkte bereik en vooruitgang te boeken naar werkelijk universele videoretrieval.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.