Rumo à Recuperação Universal de Vídeos: Generalização de Embeddings de Vídeo via Pirâmide Curricular Multimodal Sintetizada

Resumo

O paradigma predominante de recuperação de vídeo está estruturalmente desalinhado, pois benchmarks restritos incentivam dados igualmente limitados e treinamento de tarefa única. Consequentemente, a capacidade universal é suprimida devido à ausência de uma avaliação diagnóstica que defina e exija generalização multidimensional. Para romper este ciclo, introduzimos uma estrutura baseada no co-design de avaliação, dados e modelagem. Primeiro, estabelecemos o *Universal Video Retrieval Benchmark* (UVRB), um conjunto de 16 conjuntos de dados projetado não apenas para medir o desempenho, mas também para diagnosticar lacunas críticas de capacidade entre tarefas e domínios. Segundo, guiados pelos diagnósticos do UVRB, introduzimos um fluxo de trabalho de síntese escalável que gera 1,55 milhão de pares de alta qualidade para preencher o espaço semântico necessário para a universalidade. Finalmente, concebemos a Pirâmide de Modalidades, um currículo que treina nosso *General Video Embedder* (GVE) aproveitando explicitamente as interconexões latentes em nossos dados diversos. Experimentos extensivos mostram que o GVE alcança generalização *zero-shot* state-of-the-art no UVRB. Em particular, nossa análise revela que benchmarks populares são maus preditores de habilidade geral e que a recuperação parcialmente relevante é um cenário dominante, mas negligenciado. No geral, nossa estrutura de co-design fornece um caminho prático para escapar do escopo limitado e avançar em direção a uma recuperação de vídeo verdadeiramente universal.

English

The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.

Rumo à Recuperação Universal de Vídeos: Generalização de Embeddings de Vídeo via Pirâmide Curricular Multimodal Sintetizada

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

Resumo

Support