Auf dem Weg zur universellen Videorecherche: Verallgemeinerung von Video-Embeddings durch synthetisiertes multimodales Pyramiden-Curriculum
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
papers.authors: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
papers.abstract
Das vorherrschende Paradigma für die Videoretrieval ist strukturell fehlausgerichtet, da eng gefasste Benchmarks entsprechend begrenzte Daten und Einzelaufgaben-Training begünstigen. Infolgedessen wird eine universelle Fähigkeit unterdrückt, da eine diagnostische Evaluation fehlt, die mehrdimensionale Generalisierung definiert und einfordert. Um diesen Kreislauf zu durchbrechen, führen wir ein Framework ein, das auf dem Co-Design von Evaluation, Daten und Modellierung basiert. Erstens etablieren wir den Universal Video Retrieval Benchmark (UVRB), eine Sammlung von 16 Datensätzen, die nicht nur zur Leistungsmessung, sondern auch zur Diagnose kritischer Fähigkeitslücken über Aufgaben und Domänen hinweg konzipiert ist. Zweitens führen wir, angeleitet durch die Diagnose des UVRB, einen skalierbaren Synthese-Workflow ein, der 1,55 Millionen hochwertige Paare erzeugt, um den für Universalität erforderlichen semantischen Raum zu füllen. Schließlich entwickeln wir die Modality Pyramid, einen Lehrplan, der unseren General Video Embedder (GVE) trainiert, indem er explizit die latenten Verbindungen innerhalb unserer diversen Daten nutzt. Umfangreiche Experimente zeigen, dass GVE eine state-of-the-art Null-Shot-Generalisierung auf dem UVRB erreicht. Unsere Analyse zeigt insbesondere, dass populäre Benchmarks schlechte Prädiktoren für allgemeine Fähigkeit sind und dass teilweise relevantes Retrieval ein dominantes, aber übersehenes Szenario darstellt. Insgesamt bietet unser co-designetes Framework einen praktischen Weg, den begrenzten Anwendungsbereich zu überwinden und sich in Richtung eines wirklich universellen Videoretrievals zu bewegen.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.