MERIT: Recuperación Semántica Multilingüe con Consultas de Múltiples Condiciones Intercaladas
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
June 3, 2025
Autores: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI
Resumen
La recuperación semántica es crucial para las aplicaciones modernas, pero sigue siendo poco explorada en la investigación actual. Los conjuntos de datos existentes se limitan a un solo idioma, una sola imagen o condiciones de recuperación únicas, a menudo sin explotar plenamente la capacidad expresiva de la información visual, como lo evidencia el mantenimiento del rendimiento cuando las imágenes se reemplazan por descripciones. Sin embargo, los escenarios prácticos de recuperación frecuentemente involucran consultas intercaladas con múltiples condiciones y varias imágenes. Por ello, este artículo presenta MERIT, el primer conjunto de datos multilingüe para la recuperación semántica intercalada con múltiples condiciones, que comprende 320,000 consultas con 135,000 productos en 5 idiomas, abarcando 7 categorías de productos distintas. Experimentos exhaustivos en MERIT identifican una limitación de los modelos existentes: enfocarse únicamente en la información semántica global mientras descuidan elementos condicionales específicos en las consultas. En consecuencia, proponemos Coral, un novedoso marco de ajuste fino que adapta modelos de lenguaje multimodal preentrenados (MLLMs) mediante la integración de reconstrucción de embeddings para preservar elementos condicionales detallados y aprendizaje contrastivo para extraer semántica global integral. Los experimentos demuestran que Coral logra una mejora del 45.9% en el rendimiento sobre enfoques convencionales en MERIT, con fuertes capacidades de generalización validadas en 8 benchmarks de recuperación establecidos. En conjunto, nuestras contribuciones —un nuevo conjunto de datos, la identificación de limitaciones críticas en enfoques existentes y un marco innovador de ajuste fino— establecen una base para futuras investigaciones en la recuperación semántica intercalada con múltiples condiciones.
English
Semantic retrieval is crucial for modern applications yet remains
underexplored in current research. Existing datasets are limited to single
languages, single images, or singular retrieval conditions, often failing to
fully exploit the expressive capacity of visual information as evidenced by
maintained performance when images are replaced with captions. However,
practical retrieval scenarios frequently involve interleaved multi-condition
queries with multiple images. Hence, this paper introduces MERIT, the first
multilingual dataset for interleaved multi-condition semantic retrieval,
comprising 320,000 queries with 135,000 products in 5 languages, covering 7
distinct product categories. Extensive experiments on MERIT identify existing
models's limitation: focusing solely on global semantic information while
neglecting specific conditional elements in queries. Consequently, we propose
Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by
integrating embedding reconstruction to preserve fine-grained conditional
elements and contrastive learning to extract comprehensive global semantics.
Experiments demonstrate that Coral achieves a 45.9% performance improvement
over conventional approaches on MERIT, with strong generalization capabilities
validated across 8 established retrieval benchmarks. Collectively, our
contributions - a novel dataset, identification of critical limitations in
existing approaches, and an innovative fine-tuning framework - establish a
foundation for future research in interleaved multi-condition semantic
retrieval.