ChatPaper.aiChatPaper

Dichte Retrievers Kunnen Falen op Eenvoudige Vragen: Het Granulariteitsdilemma van Embeddings Aan Het Licht Brengen

Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings

June 10, 2025
Auteurs: Liyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou
cs.AI

Samenvatting

Dit werk richt zich op een waargenomen beperking van tekstencoders: embeddings zijn mogelijk niet in staat om fijnmazige entiteiten of gebeurtenissen binnen de semantiek te herkennen, wat resulteert in mislukte dense retrieval zelfs in eenvoudige gevallen. Om dergelijk gedrag te onderzoeken, introduceren we eerst een nieuwe evaluatiedataset in het Chinees, genaamd CapRetrieval, waarvan de passages beeldbijschriften zijn en de queries zinnen die op verschillende manieren naar entiteiten of gebeurtenissen vragen. Zero-shot evaluatie suggereert dat encoders mogelijk falen bij deze fijnmazige matching, ongeacht de trainingsbronnen of modelgroottes. Strevend naar verbetering, gaan we verder met het finetunen van encoders met onze voorgestelde datageneratiestrategieën, wat de beste prestaties oplevert op CapRetrieval. Binnen dit proces identificeren we verder een probleem van granulariteitsdilemma, een uitdaging voor embeddings om fijnmazige prominentie uit te drukken terwijl ze in lijn blijven met de algehele semantiek. Onze dataset, code en modellen in dit werk zijn openbaar vrijgegeven op https://github.com/lxucs/CapRetrieval.
English
This work focuses on an observed limitation of text encoders: embeddings may not be able to recognize fine-grained entities or events within the semantics, resulting in failed dense retrieval on even simple cases. To examine such behaviors, we first introduce a new evaluation dataset in Chinese, named CapRetrieval, whose passages are image captions, and queries are phrases inquiring entities or events in various forms. Zero-shot evaluation suggests that encoders may fail on these fine-grained matching, regardless of training sources or model sizes. Aiming for enhancement, we proceed to finetune encoders with our proposed data generation strategies, which obtains the best performance on CapRetrieval. Within this process, we further identify an issue of granularity dilemma, a challenge for embeddings to express fine-grained salience while aligning with overall semantics. Our dataset, code and models in this work are publicly released at https://github.com/lxucs/CapRetrieval.
PDF62June 16, 2025