ChatPaper.aiChatPaper

MetaEmbed : Mise à l'échelle de la recherche multimodale au moment du test grâce à une interaction tardive flexible

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

September 22, 2025
papers.authors: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan
cs.AI

papers.abstract

Les modèles universels d'incorporation multimodale ont connu un grand succès dans la capture de la pertinence sémantique entre les requêtes et les candidats. Cependant, les méthodes actuelles condensent soit les requêtes et les candidats en un seul vecteur, limitant potentiellement l'expressivité pour les informations fines, soit produisent trop de vecteurs, ce qui rend la recherche multi-vecteur prohibitivement coûteuse. Dans ce travail, nous introduisons MetaEmbed, un nouveau cadre pour la recherche multimodale qui repense la construction et l'interaction des incorporations multimodales à grande échelle. Pendant l'entraînement, un nombre fixe de Meta Tokens apprenables est ajouté à la séquence d'entrée. Au moment du test, leurs représentations contextuelles de la dernière couche servent d'incorporations multi-vecteurs compactes mais expressives. Grâce à l'entraînement proposé de Recherche Multi-Vecteur Matriochka, MetaEmbed apprend à organiser l'information par granularité à travers plusieurs vecteurs. En conséquence, nous permettons une mise à l'échelle au moment du test dans la recherche multimodale, où les utilisateurs peuvent équilibrer la qualité de la recherche contre les exigences d'efficacité en sélectionnant le nombre de tokens utilisés pour l'indexation et les interactions de recherche. Des évaluations approfondies sur le Massive Multimodal Embedding Benchmark (MMEB) et le Visual Document Retrieval Benchmark (ViDoRe) confirment que MetaEmbed atteint des performances de recherche de pointe tout en s'adaptant robustement à des modèles de 32 milliards de paramètres.
English
Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are constructed and interacted with at scale. During training, a fixed number of learnable Meta Tokens are appended to the input sequence. At test-time, their last-layer contextualized representations serve as compact yet expressive multi-vector embeddings. Through the proposed Matryoshka Multi-Vector Retrieval training, MetaEmbed learns to organize information by granularity across multiple vectors. As a result, we enable test-time scaling in multimodal retrieval, where users can balance retrieval quality against efficiency demands by selecting the number of tokens used for indexing and retrieval interactions. Extensive evaluations on the Massive Multimodal Embedding Benchmark (MMEB) and the Visual Document Retrieval Benchmark (ViDoRe) confirm that MetaEmbed achieves state-of-the-art retrieval performance while scaling robustly to models with 32B parameters.
PDF72September 23, 2025