ChatPaper.aiChatPaper

Revelación de Obstáculos Ocultos y Navegación por la Nueva Generación de Búsqueda de Similitud Vectorial desde Perspectivas Centradas en Tareas

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

December 15, 2025
Autores: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI

Resumen

La Búsqueda por Similitud de Vectores (VSS) en espacios de alta dimensionalidad está emergiendo rápidamente como una funcionalidad central en los sistemas de bases de datos de próxima generación para numerosos servicios intensivos en datos, desde las búsquedas de *embeddings* en modelos de lenguaje extenso (LLM), hasta la recuperación semántica de información y los motores de recomendación. Sin embargo, los puntos de referencia actuales evalúan la VSS principalmente en la disyuntiva *recall*-latencia frente a una verdad fundamental definida únicamente por métricas de distancia, descuidando cómo la calidad de la recuperación impacta finalmente en las tareas posteriores. Esta desconexión puede inducir a error tanto a la investigación académica como a la práctica industrial. Presentamos Iceberg, un conjunto de puntos de referencia holístico para la evaluación integral de métodos VSS en contextos de aplicación realistas. Desde una perspectiva centrada en la tarea, Iceberg descubre el *Embudo de Pérdida de Información*, que identifica tres fuentes principales de degradación del rendimiento integral: (1) la **Pérdida de *Embeddings*** durante la extracción de características; (2) el **Uso Inadecuado de Métricas**, donde las distancias reflejan pobremente la relevancia para la tarea; y (3) la **Sensibilidad a la Distribución de Datos**, que resalta la robustez de los índices frente a sesgos y modalidades. Para una evaluación más completa, Iceberg abarca ocho conjuntos de datos diversos en dominios clave como clasificación de imágenes, reconocimiento facial, recuperación de texto y sistemas de recomendación. Cada conjunto de datos, que varía de 1M a 100M de vectores, incluye etiquetas y métricas de evaluación ricas y específicas de la tarea, permitiendo valorar los algoritmos de recuperación dentro de la pipeline completa de la aplicación y no de forma aislada. Iceberg evalúa 13 métodos VSS de vanguardia y los reclasifica basándose en métricas a nivel de aplicación, revelando desviaciones sustanciales con respecto a las clasificaciones tradicionales derivadas únicamente de evaluaciones de *recall*-latencia. Basándonos en estas observaciones, definimos un conjunto de meta-características centradas en la tarea y derivamos un árbol de decisión interpretable para guiar a los profesionales en la selección y ajuste de métodos VSS para sus cargas de trabajo específicas.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.
PDF261December 18, 2025