ChatPaper.aiChatPaper

MERIT: Multilinguale semantische Abfrage mit verschachtelten Mehrfachbedingungen

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

June 3, 2025
Autoren: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI

Zusammenfassung

Semantische Retrieval ist entscheidend für moderne Anwendungen, bleibt jedoch in der aktuellen Forschung untererforscht. Bestehende Datensätze beschränken sich auf einzelne Sprachen, einzelne Bilder oder singuläre Retrieval-Bedingungen und nutzen oft nicht die volle Ausdruckskraft visueller Informationen aus, wie durch die aufrechterhaltene Leistung belegt wird, wenn Bilder durch Beschreibungen ersetzt werden. Praktische Retrieval-Szenarien beinhalten jedoch häufig verschachtelte Mehrfachbedingungen-Abfragen mit mehreren Bildern. Daher stellt dieses Papier MERIT vor, den ersten mehrsprachigen Datensatz für verschachteltes semantisches Retrieval unter Mehrfachbedingungen, der 320.000 Abfragen mit 135.000 Produkten in 5 Sprachen umfasst und 7 verschiedene Produktkategorien abdeckt. Umfangreiche Experimente mit MERIT identifizieren die Beschränkungen bestehender Modelle: Sie konzentrieren sich ausschließlich auf globale semantische Informationen, während sie spezifische Bedingungselemente in Abfragen vernachlässigen. Folglich schlagen wir Coral vor, ein neuartiges Feinabstimmungs-Framework, das vortrainierte MLLMs anpasst, indem es Einbettungsrekonstruktion integriert, um feinkörnige Bedingungselemente zu bewahren, und kontrastives Lernen, um umfassende globale Semantik zu extrahieren. Experimente zeigen, dass Coral eine Leistungssteigerung von 45,9 % gegenüber konventionellen Ansätzen auf MERIT erreicht, mit starken Generalisierungsfähigkeiten, die über 8 etablierte Retrieval-Benchmarks validiert wurden. Zusammengefasst legen unsere Beiträge – ein neuartiger Datensatz, die Identifikation kritischer Beschränkungen bestehender Ansätze und ein innovatives Feinabstimmungs-Framework – die Grundlage für zukünftige Forschung im Bereich des verschachtelten semantischen Retrievals unter Mehrfachbedingungen.
English
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
PDF32June 4, 2025