ChatPaper.aiChatPaper

MERIT: Recuperação Semântica Multilíngue com Consulta Multicondicional Intercalada

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

June 3, 2025
Autores: Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
cs.AI

Resumo

A recuperação semântica é crucial para aplicações modernas, mas ainda permanece pouco explorada nas pesquisas atuais. Os conjuntos de dados existentes são limitados a idiomas únicos, imagens únicas ou condições de recuperação singulares, muitas vezes falhando em explorar plenamente a capacidade expressiva da informação visual, como evidenciado pelo desempenho mantido quando as imagens são substituídas por legendas. No entanto, cenários práticos de recuperação frequentemente envolvem consultas intercaladas com múltiplas condições e várias imagens. Portanto, este artigo introduz o MERIT, o primeiro conjunto de dados multilíngue para recuperação semântica intercalada com múltiplas condições, composto por 320.000 consultas com 135.000 produtos em 5 idiomas, abrangendo 7 categorias distintas de produtos. Experimentos extensivos no MERIT identificam uma limitação dos modelos existentes: o foco exclusivo em informações semânticas globais, enquanto negligenciam elementos condicionais específicos nas consultas. Consequentemente, propomos o Coral, uma nova estrutura de ajuste fino que adapta MLLMs pré-treinados, integrando reconstrução de embeddings para preservar elementos condicionais detalhados e aprendizado contrastivo para extrair semânticas globais abrangentes. Experimentos demonstram que o Coral alcança uma melhoria de desempenho de 45,9% em relação às abordagens convencionais no MERIT, com fortes capacidades de generalização validadas em 8 benchmarks de recuperação estabelecidos. Coletivamente, nossas contribuições - um novo conjunto de dados, a identificação de limitações críticas nas abordagens existentes e uma estrutura inovadora de ajuste fino - estabelecem uma base para pesquisas futuras em recuperação semântica intercalada com múltiplas condições.
English
Semantic retrieval is crucial for modern applications yet remains underexplored in current research. Existing datasets are limited to single languages, single images, or singular retrieval conditions, often failing to fully exploit the expressive capacity of visual information as evidenced by maintained performance when images are replaced with captions. However, practical retrieval scenarios frequently involve interleaved multi-condition queries with multiple images. Hence, this paper introduces MERIT, the first multilingual dataset for interleaved multi-condition semantic retrieval, comprising 320,000 queries with 135,000 products in 5 languages, covering 7 distinct product categories. Extensive experiments on MERIT identify existing models's limitation: focusing solely on global semantic information while neglecting specific conditional elements in queries. Consequently, we propose Coral, a novel fine-tuning framework that adapts pre-trained MLLMs by integrating embedding reconstruction to preserve fine-grained conditional elements and contrastive learning to extract comprehensive global semantics. Experiments demonstrate that Coral achieves a 45.9% performance improvement over conventional approaches on MERIT, with strong generalization capabilities validated across 8 established retrieval benchmarks. Collectively, our contributions - a novel dataset, identification of critical limitations in existing approaches, and an innovative fine-tuning framework - establish a foundation for future research in interleaved multi-condition semantic retrieval.
PDF32June 4, 2025