ChatPaper.aiChatPaper

タスク中心の視点からベクトル類似性検索の次世代を導く:隠れた落とし穴の解明とナビゲーション

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

December 15, 2025
著者: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI

要旨

高次元空間におけるベクトル類似性検索(VSS)は、大規模言語モデル(LLM)における埋め込み検索から、意味的情報検索や推薦エンジンに至るまで、多数のデータ集約型サービスにおいて、次世代データベースシステムのコア機能として急速に台頭している。しかし、現行のベンチマークは、VSSを主に、距離指標のみで定義された正解データに対する再現率とレイテンシのトレードオフで評価しており、検索品質が下流タスクに最終的に与える影響を軽視している。この乖離は、学術研究と産業実践の両方を誤った方向に導く可能性がある。 我々は、現実的なアプリケーションコンテキストにおけるVSS手法のエンドツーエンド評価のための総合的なベンチマークスイート「Iceberg」を提案する。タスク中心の視点から、Icebergは「情報損失のファネル」を明らかにする。これは、エンドツーエンドの性能低下の3つの主要な原因を特定するものである:(1) 特徴抽出時の埋め込み損失、(2) 距離がタスクの関連性を十分に反映しない指標の誤用、(3) データ分布の敏感性(様々な偏りやモダリティにわたるインデックスの頑健性を浮き彫りにする)。より包括的な評価のために、Icebergは画像分類、顔認識、テキスト検索、推薦システムなどの主要分野にわたる8つの多様なデータセットを網羅する。各データセット(100万から1億ベクトルの規模)には、豊富なタスク固有のラベルと評価指標が含まれており、検索アルゴリズムを単体ではなく、アプリケーションの全パイプライン内で評価することを可能にする。Icebergは13の最先端VSS手法をベンチマークし、アプリケーションレベルの指標に基づいて再ランク付けすることで、従来の再現率-レイテンシ評価のみから導かれたランキングからの大幅な乖離を明らかにする。これらの知見に基づき、我々は一連のタスク中心メタ特徴を定義し、解釈可能な決定木を導出して、実践者が特定のワークロードに応じてVSS手法を選択・調整するための指針を提供する。
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.
PDF261December 18, 2025