ChatPaper.aiChatPaper

Vers une recherche vidéo universelle : Généralisation de l'encodage vidéo par un curriculum pyramidal multimodal synthétisé

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

October 31, 2025
papers.authors: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI

papers.abstract

Le paradigme dominant en matière de récupération vidéo souffre d'un désalignement structurel, car des benchmarks étroits encouragent des données limitées et un entraînement monotâche. Par conséquent, la capacité universelle est supprimée en l'absence d'une évaluation diagnostique qui définit et exige une généralisation multidimensionnelle. Pour briser ce cycle, nous introduisons un cadre basé sur la co-conception de l'évaluation, des données et de la modélisation. Premièrement, nous établissons l'Universal Video Retrieval Benchmark (UVRB), une suite de 16 ensembles de données conçus non seulement pour mesurer les performances mais aussi pour diagnostiquer les lacunes critiques de capacité à travers les tâches et les domaines. Deuxièmement, guidés par les diagnostics de l'UVRB, nous introduisons un workflow de synthèse évolutif qui génère 1,55 million de paires de haute qualité pour peupler l'espace sémantique requis par l'universalité. Enfin, nous concevons la Pyramide de Modalités, un curriculum qui entraîne notre General Video Embedder (GVE) en exploitant explicitement les interconnexions latentes au sein de nos données diversifiées. Des expériences approfondies montrent que le GVE atteint une généralisation zero-shot de pointe sur l'UVRB. En particulier, notre analyse révèle que les benchmarks populaires sont de mauvais prédicteurs des capacités générales et que la récupération partiellement pertinente est un scénario dominant mais négligé. Globalement, notre cadre co-conçu offre une voie pratique pour échapper au champ d'application limité et progresser vers une récupération vidéo véritablement universelle.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.
PDF171January 19, 2026