Verso un Recupero Video Universale: Generalizzazione dell'Embedding Video tramite una Piramide Curriculare Multimodale Sintetizzata
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
Autori: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
Abstract
L'attuale paradigma di recupero video è strutturalmente disallineato, poiché benchmark ristretti incentivano dati limitati e addestramento single-task di conseguenza. Pertanto, la capacità universale è soppressa a causa dell'assenza di una valutazione diagnostica che definisca e richieda una generalizzazione multidimensionale. Per rompere questo ciclo, introduciamo un framework basato sulla co-progettazione di valutazione, dati e modellazione. In primo luogo, stabiliamo l'Universal Video Retrieval Benchmark (UVRB), una suite di 16 dataset progettata non solo per misurare le prestazioni ma anche per diagnosticare critiche lacune capacità attraverso task e domini. In secondo luogo, guidati dalle diagnosi di UVRB, introduciamo un workflow di sintesi scalabile che genera 1,55 milioni di coppie di alta qualità per popolare lo spazio semantico richiesto per l'universalità. Infine, concepiamo la Modality Pyramid, un curriculum che addestra il nostro General Video Embedder (GVE) sfruttando esplicitamente le interconnessioni latenti all'interno dei nostri dati diversificati. Esperimenti estensivi mostrano che GVE raggiunge una generalizzazione zero-shot allo stato dell'arte su UVRB. In particolare, la nostra analisi rivela che i benchmark popolari sono scarsi predittori di abilità generale e che il recupero parzialmente rilevante è uno scenario dominante ma trascurato. Nel complesso, il nostro framework co-progettato fornisce un percorso pratico per sfuggire allo scope limitato e avanzare verso un recupero video veramente universale.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.