Rumo à Recuperação Universal de Vídeos: Generalização de Embeddings de Vídeo via Pirâmide Curricular Multimodal Sintetizada
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
Autores: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
Resumo
O paradigma predominante de recuperação de vídeo está estruturalmente desalinhado, pois benchmarks restritos incentivam dados igualmente limitados e treinamento de tarefa única. Consequentemente, a capacidade universal é suprimida devido à ausência de uma avaliação diagnóstica que defina e exija generalização multidimensional. Para romper este ciclo, introduzimos uma estrutura baseada no co-design de avaliação, dados e modelagem. Primeiro, estabelecemos o *Universal Video Retrieval Benchmark* (UVRB), um conjunto de 16 conjuntos de dados projetado não apenas para medir o desempenho, mas também para diagnosticar lacunas críticas de capacidade entre tarefas e domínios. Segundo, guiados pelos diagnósticos do UVRB, introduzimos um fluxo de trabalho de síntese escalável que gera 1,55 milhão de pares de alta qualidade para preencher o espaço semântico necessário para a universalidade. Finalmente, concebemos a Pirâmide de Modalidades, um currículo que treina nosso *General Video Embedder* (GVE) aproveitando explicitamente as interconexões latentes em nossos dados diversos. Experimentos extensivos mostram que o GVE alcança generalização *zero-shot* state-of-the-art no UVRB. Em particular, nossa análise revela que benchmarks populares são maus preditores de habilidade geral e que a recuperação parcialmente relevante é um cenário dominante, mas negligenciado. No geral, nossa estrutura de co-design fornece um caminho prático para escapar do escopo limitado e avançar em direção a uma recuperação de vídeo verdadeiramente universal.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.