MERIT: Многоязычный семантический поиск с чередующимися многокритериальными запросами
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
June 3, 2025
Авторы: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI
Аннотация
Семантический поиск имеет решающее значение для современных приложений, однако остается недостаточно изученным в текущих исследованиях. Существующие наборы данных ограничены одним языком, одним изображением или единичными условиями поиска, часто не полностью раскрывая выразительный потенциал визуальной информации, что подтверждается сохранением производительности при замене изображений текстовыми описаниями. Однако практические сценарии поиска часто включают сложные многокомпонентные запросы с несколькими изображениями. В связи с этим данная работа представляет MERIT — первый многоязычный набор данных для многокомпонентного семантического поиска, содержащий 320 000 запросов с 135 000 товаров на 5 языках, охватывающих 7 различных категорий продуктов. Масштабные эксперименты на MERIT выявили ограничение существующих моделей: фокусирование исключительно на глобальной семантической информации при игнорировании специфических условий в запросах. В результате мы предлагаем Coral — инновационную структуру тонкой настройки, которая адаптирует предобученные мультимодальные языковые модели (MLLM) за счет интеграции реконструкции эмбеддингов для сохранения детализированных условий и контрастивного обучения для извлечения всеобъемлющей глобальной семантики. Эксперименты показывают, что Coral достигает улучшения производительности на 45,9% по сравнению с традиционными подходами на MERIT, демонстрируя сильные обобщающие способности, подтвержденные на 8 известных бенчмарках поиска. В совокупности наши вклады — новый набор данных, выявление ключевых ограничений существующих подходов и инновационная структура тонкой настройки — закладывают основу для будущих исследований в области многокомпонентного семантического поиска.
English
Semantic retrieval is crucial for modern applications yet remains
underexplored in current research. Existing datasets are limited to single
languages, single images, or singular retrieval conditions, often failing to
fully exploit the expressive capacity of visual information as evidenced by
maintained performance when images are replaced with captions. However,
practical retrieval scenarios frequently involve interleaved multi-condition
queries with multiple images. Hence, this paper introduces MERIT, the first
multilingual dataset for interleaved multi-condition semantic retrieval,
comprising 320,000 queries with 135,000 products in 5 languages, covering 7
distinct product categories. Extensive experiments on MERIT identify existing
models's limitation: focusing solely on global semantic information while
neglecting specific conditional elements in queries. Consequently, we propose
Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by
integrating embedding reconstruction to preserve fine-grained conditional
elements and contrastive learning to extract comprehensive global semantics.
Experiments demonstrate that Coral achieves a 45.9% performance improvement
over conventional approaches on MERIT, with strong generalization capabilities
validated across 8 established retrieval benchmarks. Collectively, our
contributions - a novel dataset, identification of critical limitations in
existing approaches, and an innovative fine-tuning framework - establish a
foundation for future research in interleaved multi-condition semantic
retrieval.