ChatPaper.aiChatPaper

Verborgene Fallstricke aufdecken und die nächste Generation der Vektorähnlichkeitssuche aus aufgabenorientierter Perspektive navigieren

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

December 15, 2025
papers.authors: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI

papers.abstract

Die Ähnlichkeitssuche mit Vektoren (Vector Similarity Search, VSS) in hochdimensionalen Räumen etabliert sich zunehmend als Kernfunktionalität in Datenbanksystemen der nächsten Generation für eine Vielzahl datenintensiver Dienste – vom Einbetten von Lookups in großen Sprachmodellen (LLMs) über semantische Informationsbeschaffung bis hin zu Empfehlungssystemen. Aktuelle Benchmarks bewerten VSS jedoch primär anhand des Abwägens zwischen Trefferquote (Recall) und Latenz gegenüber einer allein durch Abstandsmetriken definierten Grundwahrheit (Ground Truth) und vernachlässigen dabei, wie sich die Retrieval-Qualität letztlich auf nachgelagerte Aufgaben auswirkt. Diese Diskrepanz kann sowohl die akademische Forschung als auch die industrielle Praxis in die Irre führen. Wir stellen Iceberg vor, eine ganzheitliche Benchmark-Suite zur End-to-End-Bewertung von VSS-Methoden in realistischen Anwendungskontexten. Aus einer aufgabenorientierten Perspektive deckt Iceberg den „Information Loss Funnel“ (Trichter des Informationsverlusts) auf, der drei Hauptquellen für Leistungsverschlechterung über die gesamte Verarbeitungskette identifiziert: (1) Einbettungsverlust (Embedding Loss) während der Merkmalsextraktion; (2) Fehlanwendung von Metriken (Metric Misuse), bei der Abstände die Aufgaberelevanz nur unzureichend widerspiegeln; (3) Sensitivität gegenüber der Datenverteilung (Data Distribution Sensitivity), welche die Robustheit von Indizes gegenüber Schiefen und verschiedenen Modalitäten hervorhebt. Für eine umfassendere Bewertung umfasst Iceberg acht verschiedene Datensätze aus Schlüsseldomänen wie Bildklassifizierung, Gesichtserkennung, Textretrieval und Empfehlungssystemen. Jeder Datensatz, der zwischen 1 Mio. und 100 Mio. Vektoren umfasst, enthält umfangreiche, aufgabenspezifische Labels und Bewertungsmetriken, die eine Beurteilung von Retrieval-Algorithmen innerhalb der gesamten Anwendungspipeline und nicht isoliert ermöglichen. Iceberg benchmarked 13 state-of-the-art VSS-Methoden und ordnet sie auf der Grundlage von anwendungsbezogenen Metriken neu, was erhebliche Abweichungen von traditionellen, rein auf Recall-Latenz-Bewertungen basierenden Rankings offenbart. Aufbauend auf diesen Erkenntnissen definieren wir einen Satz aufgabenorientierter Meta-Merkmale und leiten einen interpretierbaren Entscheidungsbaum ab, um Praktiker bei der Auswahl und Feinabstimmung von VSS-Methoden für ihre spezifischen Workloads zu unterstützen.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.
PDF261December 18, 2025