범용 비디오 검색을 향하여: 합성된 다중모달 피라미드 커리큘럼을 통한 비디오 임베딩 일반화
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
October 31, 2025
저자: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu
cs.AI
초록
현재의 비디오 검색 패러다임은 구조적으로 정렬이 잘못되었습니다. 제한된 벤치마크가 그에 상응하는 한정된 데이터와 단일 작업 학습을 부추기기 때문입니다. 따라서 다차원적 일반화를 정의하고 요구하는 진단적 평가가 부재하여 보편적 능력이 억제되고 있습니다. 이러한 악순환을 깨기 위해 우리는 평가, 데이터, 모델링의 공동 설계 위에 구축된 프레임워크를 소개합니다. 먼저, 성능 측정뿐만 아니라 작업 및 도메인 간 중요한 능력 격차를 진단하도록 설계된 16개 데이터 세트 모음인 범용 비디오 검색 벤치마크(UVRB)를 확립했습니다. 둘째, UVRB의 진단을 바탕으로 보편성에 필요한 의미 공간을 채우기 위해 155만 개의 고품질 쌍을 생성하는 확장 가능한 합성 워크플로를 도입했습니다. 마지막으로, 다양한 데이터 내의 잠재적 상호 연결을 명시적으로 활용하여 우리의 일반 비디오 임베더(GVE)를 훈련시키는 커리큘럼인 모달리티 피라미드를 고안했습니다. 폭넓은 실험 결과 GVE가 UVRB에서 최첨단 제로샷 일반화 성능을 달성함을 보여줍니다. 특히 우리의 분석은 인기 있는 벤치마크가 일반 능력을 예측하는 데 취약하며, 부분적으로 관련된 검색이 지배적이지만 간과된 시나리오임을 밝혀냅니다. 전반적으로, 우리의 공동 설계 프레임워크는 제한된 범위를 벗어나 진정한 범용 비디오 검색으로 나아가는 실용적인 길을 제시합니다.
English
The prevailing video retrieval paradigm is structurally misaligned, as narrow
benchmarks incentivize correspondingly limited data and single-task training.
Therefore, universal capability is suppressed due to the absence of a
diagnostic evaluation that defines and demands multi-dimensional
generalization. To break this cycle, we introduce a framework built on the
co-design of evaluation, data, and modeling. First, we establish the Universal
Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to
measure performance but also to diagnose critical capability gaps across tasks
and domains. Second, guided by UVRB's diagnostics, we introduce a scalable
synthesis workflow that generates 1.55 million high-quality pairs to populate
the semantic space required for universality. Finally, we devise the Modality
Pyramid, a curriculum that trains our General Video Embedder (GVE) by
explicitly leveraging the latent interconnections within our diverse data.
Extensive experiments show GVE achieves state-of-the-art zero-shot
generalization on UVRB. In particular, our analysis reveals that popular
benchmarks are poor predictors of general ability and that partially relevant
retrieval is a dominant but overlooked scenario. Overall, our co-designed
framework provides a practical path to escape the limited scope and advance
toward truly universal video retrieval.