ChatPaper.aiChatPaper

MERIT: 다중 조건 쿼리 인터리빙을 통한 다국어 의미 검색

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

June 3, 2025
저자: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI

초록

시맨틱 검색은 현대 애플리케이션에 있어 핵심적인 요소임에도 불구하고, 현재 연구에서는 충분히 탐구되지 않고 있다. 기존 데이터셋은 단일 언어, 단일 이미지 또는 단일 검색 조건에 국한되어 있어, 이미지를 캡션으로 대체해도 성능이 유지되는 것으로 볼 때 시각 정보의 표현력을 충분히 활용하지 못하고 있다. 그러나 실제 검색 시나리오에서는 여러 이미지가 포함된 복합 조건 쿼리가 빈번하게 발생한다. 이에 본 논문은 5개 언어로 구성된 135,000개의 제품과 320,000개의 쿼리를 포함하며 7개의 서로 다른 제품 카테고리를 다루는, 인터리브된 다중 조건 시맨틱 검색을 위한 최초의 다국어 데이터셋인 MERIT를 소개한다. MERIT에 대한 광범위한 실험을 통해 기존 모델의 한계를 확인하였는데, 이는 쿼리의 특정 조건 요소를 간과하고 전역 시맨틱 정보에만 초점을 맞추는 것이다. 이에 따라, 우리는 사전 학습된 MLLM을 적응시키기 위해 임베딩 재구성을 통한 세부 조건 요소 보존과 대조 학습을 통한 포괄적인 전역 시맨틱 추출을 통합한 새로운 파인튜닝 프레임워크인 Coral을 제안한다. 실험 결과, Coral은 MERIT에서 기존 접근 방식 대비 45.9%의 성능 향상을 달성하였으며, 8개의 기존 검색 벤치마크에서 검증된 강력한 일반화 능력을 보여주었다. 종합적으로, 우리의 기여는 새로운 데이터셋, 기존 접근법의 중요한 한계 식별, 그리고 혁신적인 파인튜닝 프레임워크를 통해 인터리브된 다중 조건 시맨틱 검색 분야의 미래 연구를 위한 기반을 마련하였다.
English
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
PDF32June 4, 2025