ChatPaper.aiChatPaper

Dichte Retrieval-Systeme können bei einfachen Anfragen versagen: Die Granularitätsdilemma von Embeddings aufgedeckt

Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings

June 10, 2025
Autoren: Liyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou
cs.AI

Zusammenfassung

Diese Arbeit konzentriert sich auf eine beobachtete Einschränkung von Textkodierern: Embeddings sind möglicherweise nicht in der Lage, fein granulierte Entitäten oder Ereignisse innerhalb der Semantik zu erkennen, was zu fehlgeschlagenem dichtem Retrieval selbst in einfachen Fällen führt. Um solche Verhaltensweisen zu untersuchen, führen wir zunächst einen neuen Evaluationsdatensatz in Chinesisch ein, genannt CapRetrieval, dessen Passagen Bildbeschreibungen sind und deren Abfragen Phrasen sind, die Entitäten oder Ereignisse in verschiedenen Formen abfragen. Die Zero-Shot-Evaluierung legt nahe, dass Kodierer bei diesen fein granulierte Übereinstimmungen scheitern können, unabhängig von den Trainingsquellen oder Modellgrößen. Mit dem Ziel der Verbesserung gehen wir dazu über, Kodierer mit unseren vorgeschlagenen Datengenerierungsstrategien zu feintunen, was die beste Leistung auf CapRetrieval erzielt. Innerhalb dieses Prozesses identifizieren wir weiterhin ein Problem des Granularitätsdilemmas, eine Herausforderung für Embeddings, fein granulierte Salienz auszudrücken und gleichzeitig mit der Gesamtsemantik übereinzustimmen. Unser Datensatz, Code und Modelle in dieser Arbeit sind öffentlich unter https://github.com/lxucs/CapRetrieval verfügbar.
English
This work focuses on an observed limitation of text encoders: embeddings may not be able to recognize fine-grained entities or events within the semantics, resulting in failed dense retrieval on even simple cases. To examine such behaviors, we first introduce a new evaluation dataset in Chinese, named CapRetrieval, whose passages are image captions, and queries are phrases inquiring entities or events in various forms. Zero-shot evaluation suggests that encoders may fail on these fine-grained matching, regardless of training sources or model sizes. Aiming for enhancement, we proceed to finetune encoders with our proposed data generation strategies, which obtains the best performance on CapRetrieval. Within this process, we further identify an issue of granularity dilemma, a challenge for embeddings to express fine-grained salience while aligning with overall semantics. Our dataset, code and models in this work are publicly released at https://github.com/lxucs/CapRetrieval.
PDF52June 16, 2025