MetaEmbed : Mise à l'échelle de la recherche multimodale au moment du test grâce à une interaction tardive flexible
MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction
September 22, 2025
papers.authors: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan
cs.AI
papers.abstract
Les modèles universels d'incorporation multimodale ont connu un grand succès dans la capture de la pertinence sémantique entre les requêtes et les candidats. Cependant, les méthodes actuelles condensent soit les requêtes et les candidats en un seul vecteur, limitant potentiellement l'expressivité pour les informations fines, soit produisent trop de vecteurs, ce qui rend la recherche multi-vecteur prohibitivement coûteuse. Dans ce travail, nous introduisons MetaEmbed, un nouveau cadre pour la recherche multimodale qui repense la construction et l'interaction des incorporations multimodales à grande échelle. Pendant l'entraînement, un nombre fixe de Meta Tokens apprenables est ajouté à la séquence d'entrée. Au moment du test, leurs représentations contextuelles de la dernière couche servent d'incorporations multi-vecteurs compactes mais expressives. Grâce à l'entraînement proposé de Recherche Multi-Vecteur Matriochka, MetaEmbed apprend à organiser l'information par granularité à travers plusieurs vecteurs. En conséquence, nous permettons une mise à l'échelle au moment du test dans la recherche multimodale, où les utilisateurs peuvent équilibrer la qualité de la recherche contre les exigences d'efficacité en sélectionnant le nombre de tokens utilisés pour l'indexation et les interactions de recherche. Des évaluations approfondies sur le Massive Multimodal Embedding Benchmark (MMEB) et le Visual Document Retrieval Benchmark (ViDoRe) confirment que MetaEmbed atteint des performances de recherche de pointe tout en s'adaptant robustement à des modèles de 32 milliards de paramètres.
English
Universal multimodal embedding models have achieved great success in
capturing semantic relevance between queries and candidates. However, current
methods either condense queries and candidates into a single vector,
potentially limiting the expressiveness for fine-grained information, or
produce too many vectors that are prohibitively expensive for multi-vector
retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal
retrieval that rethinks how multimodal embeddings are constructed and
interacted with at scale. During training, a fixed number of learnable Meta
Tokens are appended to the input sequence. At test-time, their last-layer
contextualized representations serve as compact yet expressive multi-vector
embeddings. Through the proposed Matryoshka Multi-Vector Retrieval training,
MetaEmbed learns to organize information by granularity across multiple
vectors. As a result, we enable test-time scaling in multimodal retrieval,
where users can balance retrieval quality against efficiency demands by
selecting the number of tokens used for indexing and retrieval interactions.
Extensive evaluations on the Massive Multimodal Embedding Benchmark (MMEB) and
the Visual Document Retrieval Benchmark (ViDoRe) confirm that MetaEmbed
achieves state-of-the-art retrieval performance while scaling robustly to
models with 32B parameters.