MERIT: Recupero Semantico Multilingue con Query a Condizioni Multiple Intervallate
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
June 3, 2025
Autori: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI
Abstract
Il recupero semantico è cruciale per le applicazioni moderne, ma rimane ancora poco esplorato nella ricerca attuale. I dataset esistenti sono limitati a singole lingue, singole immagini o condizioni di recupero singolari, spesso non riuscendo a sfruttare appieno la capacità espressiva delle informazioni visive, come evidenziato dalle prestazioni mantenute quando le immagini vengono sostituite con didascalie. Tuttavia, gli scenari pratici di recupero coinvolgono frequentemente query intervallate con condizioni multiple e immagini multiple. Pertanto, questo articolo introduce MERIT, il primo dataset multilingue per il recupero semantico intervallato con condizioni multiple, comprendente 320.000 query con 135.000 prodotti in 5 lingue, coprendo 7 distinte categorie di prodotti. Esperimenti estensivi su MERIT identificano una limitazione dei modelli esistenti: concentrarsi esclusivamente sulle informazioni semantiche globali trascurando elementi condizionali specifici nelle query. Di conseguenza, proponiamo Coral, un nuovo framework di fine-tuning che adatta MLLM pre-addestrati integrando la ricostruzione degli embedding per preservare elementi condizionali dettagliati e l'apprendimento contrastivo per estrarre semantiche globali complete. Gli esperimenti dimostrano che Coral raggiunge un miglioramento delle prestazioni del 45,9% rispetto agli approcci convenzionali su MERIT, con forti capacità di generalizzazione validate su 8 benchmark di recupero consolidati. Collettivamente, i nostri contributi - un nuovo dataset, l'identificazione di limitazioni critiche negli approcci esistenti e un innovativo framework di fine-tuning - stabiliscono una base per la ricerca futura nel recupero semantico intervallato con condizioni multiple.
English
Semantic retrieval is crucial for modern applications yet remains
underexplored in current research. Existing datasets are limited to single
languages, single images, or singular retrieval conditions, often failing to
fully exploit the expressive capacity of visual information as evidenced by
maintained performance when images are replaced with captions. However,
practical retrieval scenarios frequently involve interleaved multi-condition
queries with multiple images. Hence, this paper introduces MERIT, the first
multilingual dataset for interleaved multi-condition semantic retrieval,
comprising 320,000 queries with 135,000 products in 5 languages, covering 7
distinct product categories. Extensive experiments on MERIT identify existing
models's limitation: focusing solely on global semantic information while
neglecting specific conditional elements in queries. Consequently, we propose
Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by
integrating embedding reconstruction to preserve fine-grained conditional
elements and contrastive learning to extract comprehensive global semantics.
Experiments demonstrate that Coral achieves a 45.9% performance improvement
over conventional approaches on MERIT, with strong generalization capabilities
validated across 8 established retrieval benchmarks. Collectively, our
contributions - a novel dataset, identification of critical limitations in
existing approaches, and an innovative fine-tuning framework - establish a
foundation for future research in interleaved multi-condition semantic
retrieval.