MERIT: Multilinguale semantische Abfrage mit verschachtelten Mehrfachbedingungen
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
June 3, 2025
Autoren: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI
Zusammenfassung
Semantische Retrieval ist entscheidend für moderne Anwendungen, bleibt jedoch in der aktuellen Forschung untererforscht. Bestehende Datensätze beschränken sich auf einzelne Sprachen, einzelne Bilder oder singuläre Retrieval-Bedingungen und nutzen oft nicht die volle Ausdruckskraft visueller Informationen aus, wie durch die aufrechterhaltene Leistung belegt wird, wenn Bilder durch Beschreibungen ersetzt werden. Praktische Retrieval-Szenarien beinhalten jedoch häufig verschachtelte Mehrfachbedingungen-Abfragen mit mehreren Bildern. Daher stellt dieses Papier MERIT vor, den ersten mehrsprachigen Datensatz für verschachteltes semantisches Retrieval unter Mehrfachbedingungen, der 320.000 Abfragen mit 135.000 Produkten in 5 Sprachen umfasst und 7 verschiedene Produktkategorien abdeckt. Umfangreiche Experimente mit MERIT identifizieren die Beschränkungen bestehender Modelle: Sie konzentrieren sich ausschließlich auf globale semantische Informationen, während sie spezifische Bedingungselemente in Abfragen vernachlässigen. Folglich schlagen wir Coral vor, ein neuartiges Feinabstimmungs-Framework, das vortrainierte MLLMs anpasst, indem es Einbettungsrekonstruktion integriert, um feinkörnige Bedingungselemente zu bewahren, und kontrastives Lernen, um umfassende globale Semantik zu extrahieren. Experimente zeigen, dass Coral eine Leistungssteigerung von 45,9 % gegenüber konventionellen Ansätzen auf MERIT erreicht, mit starken Generalisierungsfähigkeiten, die über 8 etablierte Retrieval-Benchmarks validiert wurden. Zusammengefasst legen unsere Beiträge – ein neuartiger Datensatz, die Identifikation kritischer Beschränkungen bestehender Ansätze und ein innovatives Feinabstimmungs-Framework – die Grundlage für zukünftige Forschung im Bereich des verschachtelten semantischen Retrievals unter Mehrfachbedingungen.
English
Semantic retrieval is crucial for modern applications yet remains
underexplored in current research. Existing datasets are limited to single
languages, single images, or singular retrieval conditions, often failing to
fully exploit the expressive capacity of visual information as evidenced by
maintained performance when images are replaced with captions. However,
practical retrieval scenarios frequently involve interleaved multi-condition
queries with multiple images. Hence, this paper introduces MERIT, the first
multilingual dataset for interleaved multi-condition semantic retrieval,
comprising 320,000 queries with 135,000 products in 5 languages, covering 7
distinct product categories. Extensive experiments on MERIT identify existing
models's limitation: focusing solely on global semantic information while
neglecting specific conditional elements in queries. Consequently, we propose
Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by
integrating embedding reconstruction to preserve fine-grained conditional
elements and contrastive learning to extract comprehensive global semantics.
Experiments demonstrate that Coral achieves a 45.9% performance improvement
over conventional approaches on MERIT, with strong generalization capabilities
validated across 8 established retrieval benchmarks. Collectively, our
contributions - a novel dataset, identification of critical limitations in
existing approaches, and an innovative fine-tuning framework - establish a
foundation for future research in interleaved multi-condition semantic
retrieval.