ChatPaper.aiChatPaper

К универсальному поиску в видео: обобщение видеовложений с помощью синтезированной мультимодальной пирамидальной учебной программы

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

October 31, 2025
Авторы: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI

Аннотация

Современная парадигма поиска видео структурно несбалансирована, поскольку узкие бенчмарки стимулируют использование соответствующим образом ограниченных данных и обучение под одну задачу. Как следствие, универсальные способности подавляются из-за отсутствия диагностической оценки, которая определяет и требует многомерной обобщающей способности. Чтобы разорвать этот круг, мы представляем фреймворк, основанный на совместном проектировании оценки, данных и модели. Во-первых, мы создали Универсальный бенчмарк для поиска видео (UVRB) — набор из 16 наборов данных, предназначенных не только для измерения производительности, но и для диагностики критических пробелов в возможностях across задачам и доменам. Во-вторых, руководствуясь диагностикой UVRB, мы внедряем масштабируемый процесс синтеза, который генерирует 1.55 миллиона высококачественных пар для заполнения семантического пространства, необходимого для универсальности. Наконец, мы разрабатываем Модальную пирамиду — учебный план, который обучает наш Универсальный видео-эмбеддер (GVE), явно используя скрытые взаимосвязи в наших разнородных данных. Многочисленные эксперименты показывают, что GVE достигает наилучшей обобщающей способности в условиях zero-shot на UVRB. В частности, наш анализ показывает, что популярные бенчмарки плохо предсказывают общую способность и что частично релевантный поиск является доминирующим, но игнорируемым сценарием. В целом, наш фреймворк совместного проектирования предлагает практический путь к преодолению ограниченной области и продвижению к truly универсальному поиску видео.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.
PDF171January 19, 2026