MERIT: 多条件クエリをインターリーブした多言語意味検索
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
June 3, 2025
著者: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI
要旨
意味検索は現代のアプリケーションにおいて重要であるにもかかわらず、現在の研究では十分に探求されていない。既存のデータセットは単一言語、単一画像、または単一の検索条件に限定されており、画像をキャプションに置き換えても性能が維持されることからも明らかなように、視覚情報の表現力を十分に活用できていない。しかし、実際の検索シナリオでは、複数の画像を含む複合的な条件クエリが頻繁に発生する。そこで本論文では、初の多言語複合条件意味検索データセットであるMERITを紹介する。MERITは5つの言語で32万のクエリと13万5千の製品をカバーし、7つの異なる製品カテゴリを含む。MERITを用いた広範な実験により、既存のモデルの限界が明らかになった:クエリ内の特定の条件要素を無視し、グローバルな意味情報のみに焦点を当てていることである。その結果、我々はCoralを提案する。Coralは、事前学習済みのMLLMを適応させる新しいファインチューニングフレームワークであり、細粒度の条件要素を保持するための埋め込み再構築と、包括的なグローバル意味を抽出するための対照学習を統合している。実験により、CoralはMERITにおいて従来のアプローチよりも45.9%の性能向上を達成し、8つの確立された検索ベンチマークで強力な汎化能力を実証した。全体として、我々の貢献——新しいデータセット、既存アプローチの重要な限界の特定、革新的なファインチューニングフレームワーク——は、複合条件意味検索の将来の研究の基盤を確立するものである。
English
Semantic retrieval is crucial for modern applications yet remains
underexplored in current research. Existing datasets are limited to single
languages, single images, or singular retrieval conditions, often failing to
fully exploit the expressive capacity of visual information as evidenced by
maintained performance when images are replaced with captions. However,
practical retrieval scenarios frequently involve interleaved multi-condition
queries with multiple images. Hence, this paper introduces MERIT, the first
multilingual dataset for interleaved multi-condition semantic retrieval,
comprising 320,000 queries with 135,000 products in 5 languages, covering 7
distinct product categories. Extensive experiments on MERIT identify existing
models's limitation: focusing solely on global semantic information while
neglecting specific conditional elements in queries. Consequently, we propose
Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by
integrating embedding reconstruction to preserve fine-grained conditional
elements and contrastive learning to extract comprehensive global semantics.
Experiments demonstrate that Coral achieves a 45.9% performance improvement
over conventional approaches on MERIT, with strong generalization capabilities
validated across 8 established retrieval benchmarks. Collectively, our
contributions - a novel dataset, identification of critical limitations in
existing approaches, and an innovative fine-tuning framework - establish a
foundation for future research in interleaved multi-condition semantic
retrieval.