ChatPaper.aiChatPaper

과제 중심 관점에서 벡터 유사성 검색의 숨겨진 함정을 파악하고 다음 세대로의 전환을 주도하라

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

December 15, 2025
저자: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI

초록

고차원 공간에서의 벡터 유사도 검색(VSS)은 대규모 언어 모델의 임베딩 조회부터 의미 기반 정보 검색 및 추천 엔진에 이르기까지 수많은 데이터 집약적 서비스에서 차세대 데이터베이스 시스템의 핵심 기능으로 빠르게 부상하고 있습니다. 그러나 현재 벡터 유사도 검색 벤치마크는 주로 거리 메트릭만으로 정의된 기준값에 대한 재현율-지연 시간 트레이드오프 위주로 평가되어, 검색 품질이 최종적으로 다운스트림 작업에 미치는 영향을 간과하고 있습니다. 이러한 괴리는 학술 연구와 산업 현장 모두를 오도할 수 있습니다. 본 논문에서는 현실적인 애플리케이션 맥락에서 벡터 유사도 검색 방법을 종단 간 평가하기 위한 종합 벤치마크 제품군인 Iceberg를 소개합니다. Iceberg는 작업 중심 관점에서 종단 간 성능 저하의 세 가지 주요 원인, 즉 (1) 특징 추출 과정의 임베딩 손실, (2) 거리 메트릭이 작업 관련성을 제대로 반영하지 못하는 메트릭 오용, (3) 데이터 분포 왜곡 및 다양한 모달리티에서 인덱스 견고성을 강조하는 데이터 분포 민감도를 규명하는 정보 손실 깔대기를 제시합니다. 보다 포괄적인 평가를 위해 Iceberg는 이미지 분류, 얼굴 인식, 텍스트 검색, 추천 시스템 등 주요 영역에서 8가지 다양한 데이터셋을 아우릅니다. 100만에서 1억 개에 이르는 벡터로 구성된 각 데이터셋은 풍부한 작업 특화 레이블과 평가 메트릭을 포함하여 검색 알고리즘을 분리된 상태가 아닌 전체 애플리케이션 파이프라인 내에서 평가할 수 있게 합니다. Iceberg는 13가지 최신 벡터 유사도 검색 방법을 벤치마크하고 애플리케이션 수준 메트릭을 기준으로 재순위화하며, 기존의 재현율-지연 시간 평가만으로 도출된 순위와 현저한 차이가 있음을 보여줍니다. 이러한 통찰을 바탕으로 작업 중심 메타 특징 세트를 정의하고 해석 가능한 의사 결정 트리를 도출하여 실무자가 특정 워크로드에 맞게 벡터 유사도 검색 방법을 선택하고 튜닝하는 데 도움을 주고자 합니다.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.
PDF261December 18, 2025