MetaEmbed: Scalabilità del Recupero Multimodale al Momento del Test con Interazione Tardiva Flessibile
MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction
September 22, 2025
Autori: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan
cs.AI
Abstract
I modelli universali di embedding multimodale hanno ottenuto un grande successo nel catturare la rilevanza semantica tra query e candidati. Tuttavia, i metodi attuali condensano le query e i candidati in un singolo vettore, limitando potenzialmente l'espressività per informazioni dettagliate, oppure producono troppi vettori che risultano proibitivamente costosi per il recupero multi-vettore. In questo lavoro, introduciamo MetaEmbed, un nuovo framework per il recupero multimodale che ripensa la costruzione e l'interazione degli embedding multimodali su larga scala. Durante l'addestramento, un numero fisso di Meta Token apprendibili viene aggiunto alla sequenza di input. Al momento del test, le loro rappresentazioni contestualizzate dell'ultimo strato fungono da embedding multi-vettore compatti ma espressivi. Attraverso il training proposto per il Recupero Multi-Vettore Matryoshka, MetaEmbed impara a organizzare le informazioni per granularità attraverso più vettori. Di conseguenza, abilitiamo il ridimensionamento al momento del test nel recupero multimodale, dove gli utenti possono bilanciare la qualità del recupero rispetto alle esigenze di efficienza selezionando il numero di token utilizzati per l'indicizzazione e le interazioni di recupero. Valutazioni estensive sul Massive Multimodal Embedding Benchmark (MMEB) e sul Visual Document Retrieval Benchmark (ViDoRe) confermano che MetaEmbed raggiunge prestazioni di recupero all'avanguardia, ridimensionandosi in modo robusto a modelli con 32 miliardi di parametri.
English
Universal multimodal embedding models have achieved great success in
capturing semantic relevance between queries and candidates. However, current
methods either condense queries and candidates into a single vector,
potentially limiting the expressiveness for fine-grained information, or
produce too many vectors that are prohibitively expensive for multi-vector
retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal
retrieval that rethinks how multimodal embeddings are constructed and
interacted with at scale. During training, a fixed number of learnable Meta
Tokens are appended to the input sequence. At test-time, their last-layer
contextualized representations serve as compact yet expressive multi-vector
embeddings. Through the proposed Matryoshka Multi-Vector Retrieval training,
MetaEmbed learns to organize information by granularity across multiple
vectors. As a result, we enable test-time scaling in multimodal retrieval,
where users can balance retrieval quality against efficiency demands by
selecting the number of tokens used for indexing and retrieval interactions.
Extensive evaluations on the Massive Multimodal Embedding Benchmark (MMEB) and
the Visual Document Retrieval Benchmark (ViDoRe) confirm that MetaEmbed
achieves state-of-the-art retrieval performance while scaling robustly to
models with 32B parameters.