Qwen3-VL-Embedding 및 Qwen3-VL-Reranker: 최첨단 멀티모달 검색 및 순위 재지정을 위한 통합 프레임워크
Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
January 8, 2026
저자: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
초록
본 보고서에서는 Qwen3-VL 기초 모델을 기반으로 개발된 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다. 이 모델들은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식을 통합된 표현 공간에 매핑하여 고정밀 멀티모달 검색을 위한 종단간 파이프라인을 제공합니다. Qwen3-VL-Embedding 모델은 대규모 대조 사전 학습부터 재순위 모델 지식 증류에 이르는 다단계 학습 패러다임을 통해 의미론적으로 풍부한 고차원 벡터를 생성합니다. Matryoshka 표현 학습을 지원하여 유연한 임베딩 차원을 가능하게 하며, 최대 32k 토큰의 입력을 처리합니다. 이를 보완하는 Qwen3-VL-Reranker는 교차 주의 메커니즘을 활용한 크로스-인코더 아키텍처로 질의-문서 쌍에 대한 세밀한 관련성 추정을 수행합니다. 두 모델 시리즈 모두 Qwen3-VL의 다국어 지원 능력을 계승하여 30개 이상의 언어를 지원하며, 다양한 배포 요구사항을 수용하기 위해 2B와 8B 매개변수 규모로 공개됩니다. 실험 평가 결과, Qwen3-VL-Embedding 시리즈는 다양한 멀티모달 임베딩 평가 벤치마크에서 최첨단 성능을 달성했습니다. 구체적으로, Qwen3-VL-Embedding-8B는 MMEB-V2에서 전체 점수 77.8을 기록하여 모든 모델 중 1위를 차지했습니다(2025년 1월 8일 기준). 본 보고서는 해당 시리즈의 아키텍처, 학습 방법론 및 실제 성능을 제시하며, 이미지-텍스트 검색, 시각 질의 응답, 비디오-텍스트 매칭 등 다양한 멀티모달 검색 작업에서의 효과성을 입증합니다.
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.