ChatPaper.aiChatPaper

MERIT: Multilingual Semantische Retrieval met Geïnterleerde Multi-Conditie Query

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

June 3, 2025
Auteurs: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI

Samenvatting

Semantisch zoeken is cruciaal voor moderne toepassingen, maar blijft onderbelicht in het huidige onderzoek. Bestaande datasets zijn beperkt tot enkele talen, enkele afbeeldingen of enkele zoekcondities, en benutten vaak niet volledig het expressieve vermogen van visuele informatie, zoals blijkt uit het behouden van prestaties wanneer afbeeldingen worden vervangen door bijschriften. Praktische zoekscenario's omvatten echter vaak interleaved multi-condition zoekopdrachten met meerdere afbeeldingen. Daarom introduceert dit artikel MERIT, de eerste meertalige dataset voor interleaved multi-condition semantisch zoeken, bestaande uit 320.000 zoekopdrachten met 135.000 producten in 5 talen, die 7 verschillende productcategorieën bestrijken. Uitgebreide experimenten op MERIT identificeren een beperking van bestaande modellen: ze richten zich uitsluitend op globale semantische informatie terwijl specifieke conditionele elementen in zoekopdrachten worden verwaarloosd. Daarom stellen we Coral voor, een nieuw fine-tuning framework dat vooraf getrainde MLLM's aanpast door het integreren van embedding-reconstructie om fijnmazige conditionele elementen te behouden en contrastief leren om uitgebreide globale semantiek te extraheren. Experimenten tonen aan dat Coral een prestatieverbetering van 45,9% bereikt ten opzichte van conventionele benaderingen op MERIT, met sterke generalisatiecapaciteiten die zijn gevalideerd op 8 gevestigde zoekbenchmarks. Collectief vormen onze bijdragen - een nieuwe dataset, de identificatie van kritieke beperkingen in bestaande benaderingen en een innovatief fine-tuning framework - een basis voor toekomstig onderzoek in interleaved multi-condition semantisch zoeken.
English
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
PDF32June 4, 2025