Hacia la Recuperación Universal de Video: Generalización de Incrustaciones de Video mediante una Pirámide Curricular Multimodal Sintetizada

Resumen

El paradigma predominante en recuperación de vídeo presenta una desalineación estructural, ya que los puntos de referencia limitados incentivan datos correspondientemente restringidos y entrenamiento monotarea. Por consiguiente, la capacidad universal se ve suprimida debido a la ausencia de una evaluación diagnóstica que defina y exija una generalización multidimensional. Para romper este ciclo, presentamos un marco basado en el co-diseño de evaluación, datos y modelado. Primero, establecemos el Universal Video Retrieval Benchmark (UVRB), un conjunto de 16 conjuntos de datos diseñado no solo para medir el rendimiento, sino también para diagnosticar brechas críticas de capacidad entre tareas y dominios. Segundo, guiados por los diagnósticos del UVRB, introducimos un flujo de trabajo de síntesis escalable que genera 1.55 millones de pares de alta calidad para poblar el espacio semántico requerido para la universalidad. Finalmente, ideamos la Pirámide de Modalidades, un currículum que entrena nuestro General Video Embedder (GVE) aprovechando explícitamente las interconexiones latentes dentro de nuestros diversos datos. Experimentos exhaustivos muestran que el GVE logra una generalización zero-shot de vanguardia en el UVRB. En particular, nuestro análisis revela que los puntos de referencia populares son malos predictores de la capacidad general y que la recuperación parcialmente relevante es un escenario dominante pero pasado por alto. En conjunto, nuestro marco de co-diseño proporciona un camino práctico para escapar del alcance limitado y avanzar hacia una recuperación de vídeo verdaderamente universal.

English

The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.

Hacia la Recuperación Universal de Video: Generalización de Incrustaciones de Video mediante una Pirámide Curricular Multimodal Sintetizada

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

Resumen

Support