ChatPaper.aiChatPaper

MERIT : Récupération Sémantique Multilingue avec Requête Multi-Conditions Entrelacées

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

June 3, 2025
Auteurs: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI

Résumé

La recherche sémantique est cruciale pour les applications modernes, mais reste sous-explorée dans les recherches actuelles. Les jeux de données existants se limitent à des langues uniques, des images uniques ou des conditions de recherche singulières, échouant souvent à exploiter pleinement la capacité expressive des informations visuelles, comme en témoigne le maintien des performances lorsque les images sont remplacées par des légendes. Cependant, les scénarios pratiques de recherche impliquent fréquemment des requêtes multi-conditions entrelacées avec plusieurs images. Par conséquent, cet article présente MERIT, le premier jeu de données multilingue pour la recherche sémantique multi-conditions entrelacées, comprenant 320 000 requêtes avec 135 000 produits dans 5 langues, couvrant 7 catégories de produits distinctes. Des expériences approfondies sur MERIT identifient une limitation des modèles existants : se concentrer uniquement sur les informations sémantiques globales tout en négligeant les éléments conditionnels spécifiques dans les requêtes. En conséquence, nous proposons Coral, un nouveau cadre de fine-tuning qui adapte les MLLM pré-entraînés en intégrant une reconstruction d'embedding pour préserver les éléments conditionnels fins et un apprentissage contrastif pour extraire une sémantique globale complète. Les expériences démontrent que Coral obtient une amélioration de performance de 45,9 % par rapport aux approches conventionnelles sur MERIT, avec de solides capacités de généralisation validées sur 8 benchmarks de recherche établis. Collectivement, nos contributions - un nouveau jeu de données, l'identification de limitations critiques dans les approches existantes et un cadre de fine-tuning innovant - établissent une base pour les recherches futures dans la recherche sémantique multi-conditions entrelacées.
English
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
PDF32June 4, 2025