Hacia la Recuperación Universal de Video: Generalización de Incrustaciones de Video mediante una Pirámide Curricular Multimodal Sintetizada
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
Autores: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
Resumen
El paradigma predominante en recuperación de vídeo presenta una desalineación estructural, ya que los puntos de referencia limitados incentivan datos correspondientemente restringidos y entrenamiento monotarea. Por consiguiente, la capacidad universal se ve suprimida debido a la ausencia de una evaluación diagnóstica que defina y exija una generalización multidimensional. Para romper este ciclo, presentamos un marco basado en el co-diseño de evaluación, datos y modelado. Primero, establecemos el Universal Video Retrieval Benchmark (UVRB), un conjunto de 16 conjuntos de datos diseñado no solo para medir el rendimiento, sino también para diagnosticar brechas críticas de capacidad entre tareas y dominios. Segundo, guiados por los diagnósticos del UVRB, introducimos un flujo de trabajo de síntesis escalable que genera 1.55 millones de pares de alta calidad para poblar el espacio semántico requerido para la universalidad. Finalmente, ideamos la Pirámide de Modalidades, un currículum que entrena nuestro General Video Embedder (GVE) aprovechando explícitamente las interconexiones latentes dentro de nuestros diversos datos. Experimentos exhaustivos muestran que el GVE logra una generalización zero-shot de vanguardia en el UVRB. En particular, nuestro análisis revela que los puntos de referencia populares son malos predictores de la capacidad general y que la recuperación parcialmente relevante es un escenario dominante pero pasado por alto. En conjunto, nuestro marco de co-diseño proporciona un camino práctico para escapar del alcance limitado y avanzar hacia una recuperación de vídeo verdaderamente universal.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.