ChatPaper.aiChatPaper

Qwen3-VL-EmbeddingとQwen3-VL-Reranker:最先端マルチモーダル検索・ランキングのための統合フレームワーク

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

January 8, 2026
著者: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

要旨

本報告では、Qwen3-VL基盤モデルをベースに開発された最新拡張シリーズであるQwen3-VL-EmbeddingおよびQwen3-VL-Rerankerモデルを紹介する。これらは連携することで、テキスト、画像、文書画像、動画など多様なモダリティを統一的な表現空間にマッピングし、高精度なマルチモーダル検索のためのエンドツーエンドパイプラインを実現する。Qwen3-VL-Embeddingモデルは、大規模対照事前学習からリランキングモデル蒸留へと進む多段階訓練パラダイムを採用し、意味的に豊かな高次元ベクトルを生成する。Matryoshka Representation Learningをサポートし柔軟な埋め込み次元を可能にするとともに、最大32kトークンの入力に対応する。これを補完するQwen3-VL-Rerankerは、クロスアテンション機構を備えたクロスエンコーダー構造を用いて、クエリと文書のペアに対する細粒度の関連度推定を実行する。両モデルシリーズはQwen3-VLの多言語対応を継承し、30以上の言語をサポート。また、多様な導入要件に応えるため、2Bパラメータと8Bパラメータの2サイズで公開されている。実証評価では、Qwen3-VL-Embeddingシリーズが多様なマルチモーダル埋め込み評価ベンチマークで最先端の結果を達成。特にQwen3-VL-Embedding-8BはMMEB-V2において総合スコア77.8を記録し、全モデル中首位を獲得している(2025年1月8日時点)。本報告ではシリーズのアーキテクチャ、訓練手法、実用的能力を詳述し、画像-テキスト検索、視覚的質問応答、動画-テキストマッチングなどの多様なマルチモーダル検索タスクにおける有効性を実証する。
English
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in 2B and 8B parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of 77.8 on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.
PDF201January 13, 2026