Auf dem Weg zur universellen Videorecherche: Verallgemeinerung von Video-Embeddings durch synthetisiertes multimodales Pyramiden-Curriculum

papers.abstract

Das vorherrschende Paradigma für die Videoretrieval ist strukturell fehlausgerichtet, da eng gefasste Benchmarks entsprechend begrenzte Daten und Einzelaufgaben-Training begünstigen. Infolgedessen wird eine universelle Fähigkeit unterdrückt, da eine diagnostische Evaluation fehlt, die mehrdimensionale Generalisierung definiert und einfordert. Um diesen Kreislauf zu durchbrechen, führen wir ein Framework ein, das auf dem Co-Design von Evaluation, Daten und Modellierung basiert. Erstens etablieren wir den Universal Video Retrieval Benchmark (UVRB), eine Sammlung von 16 Datensätzen, die nicht nur zur Leistungsmessung, sondern auch zur Diagnose kritischer Fähigkeitslücken über Aufgaben und Domänen hinweg konzipiert ist. Zweitens führen wir, angeleitet durch die Diagnose des UVRB, einen skalierbaren Synthese-Workflow ein, der 1,55 Millionen hochwertige Paare erzeugt, um den für Universalität erforderlichen semantischen Raum zu füllen. Schließlich entwickeln wir die Modality Pyramid, einen Lehrplan, der unseren General Video Embedder (GVE) trainiert, indem er explizit die latenten Verbindungen innerhalb unserer diversen Daten nutzt. Umfangreiche Experimente zeigen, dass GVE eine state-of-the-art Null-Shot-Generalisierung auf dem UVRB erreicht. Unsere Analyse zeigt insbesondere, dass populäre Benchmarks schlechte Prädiktoren für allgemeine Fähigkeit sind und dass teilweise relevantes Retrieval ein dominantes, aber übersehenes Szenario darstellt. Insgesamt bietet unser co-designetes Framework einen praktischen Weg, den begrenzten Anwendungsbereich zu überwinden und sich in Richtung eines wirklich universellen Videoretrievals zu bewegen.

English

The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.

Auf dem Weg zur universellen Videorecherche: Verallgemeinerung von Video-Embeddings durch synthetisiertes multimodales Pyramiden-Curriculum

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

papers.abstract

Support