Dichte Retrieval-Systeme können bei einfachen Anfragen versagen: Die Granularitätsdilemma von Embeddings aufgedeckt
Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings
June 10, 2025
Autoren: Liyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou
cs.AI
Zusammenfassung
Diese Arbeit konzentriert sich auf eine beobachtete Einschränkung von Textkodierern: Embeddings sind möglicherweise nicht in der Lage, fein granulierte Entitäten oder Ereignisse innerhalb der Semantik zu erkennen, was zu fehlgeschlagenem dichtem Retrieval selbst in einfachen Fällen führt. Um solche Verhaltensweisen zu untersuchen, führen wir zunächst einen neuen Evaluationsdatensatz in Chinesisch ein, genannt CapRetrieval, dessen Passagen Bildbeschreibungen sind und deren Abfragen Phrasen sind, die Entitäten oder Ereignisse in verschiedenen Formen abfragen. Die Zero-Shot-Evaluierung legt nahe, dass Kodierer bei diesen fein granulierte Übereinstimmungen scheitern können, unabhängig von den Trainingsquellen oder Modellgrößen. Mit dem Ziel der Verbesserung gehen wir dazu über, Kodierer mit unseren vorgeschlagenen Datengenerierungsstrategien zu feintunen, was die beste Leistung auf CapRetrieval erzielt. Innerhalb dieses Prozesses identifizieren wir weiterhin ein Problem des Granularitätsdilemmas, eine Herausforderung für Embeddings, fein granulierte Salienz auszudrücken und gleichzeitig mit der Gesamtsemantik übereinzustimmen. Unser Datensatz, Code und Modelle in dieser Arbeit sind öffentlich unter https://github.com/lxucs/CapRetrieval verfügbar.
English
This work focuses on an observed limitation of text encoders: embeddings may
not be able to recognize fine-grained entities or events within the semantics,
resulting in failed dense retrieval on even simple cases. To examine such
behaviors, we first introduce a new evaluation dataset in Chinese, named
CapRetrieval, whose passages are image captions, and queries are phrases
inquiring entities or events in various forms. Zero-shot evaluation suggests
that encoders may fail on these fine-grained matching, regardless of training
sources or model sizes. Aiming for enhancement, we proceed to finetune encoders
with our proposed data generation strategies, which obtains the best
performance on CapRetrieval. Within this process, we further identify an issue
of granularity dilemma, a challenge for embeddings to express fine-grained
salience while aligning with overall semantics. Our dataset, code and models in
this work are publicly released at https://github.com/lxucs/CapRetrieval.