ChatPaper.aiChatPaper

MetaEmbed: Scalabilità del Recupero Multimodale al Momento del Test con Interazione Tardiva Flessibile

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

September 22, 2025
Autori: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan
cs.AI

Abstract

I modelli universali di embedding multimodale hanno ottenuto un grande successo nel catturare la rilevanza semantica tra query e candidati. Tuttavia, i metodi attuali condensano le query e i candidati in un singolo vettore, limitando potenzialmente l'espressività per informazioni dettagliate, oppure producono troppi vettori che risultano proibitivamente costosi per il recupero multi-vettore. In questo lavoro, introduciamo MetaEmbed, un nuovo framework per il recupero multimodale che ripensa la costruzione e l'interazione degli embedding multimodali su larga scala. Durante l'addestramento, un numero fisso di Meta Token apprendibili viene aggiunto alla sequenza di input. Al momento del test, le loro rappresentazioni contestualizzate dell'ultimo strato fungono da embedding multi-vettore compatti ma espressivi. Attraverso il training proposto per il Recupero Multi-Vettore Matryoshka, MetaEmbed impara a organizzare le informazioni per granularità attraverso più vettori. Di conseguenza, abilitiamo il ridimensionamento al momento del test nel recupero multimodale, dove gli utenti possono bilanciare la qualità del recupero rispetto alle esigenze di efficienza selezionando il numero di token utilizzati per l'indicizzazione e le interazioni di recupero. Valutazioni estensive sul Massive Multimodal Embedding Benchmark (MMEB) e sul Visual Document Retrieval Benchmark (ViDoRe) confermano che MetaEmbed raggiunge prestazioni di recupero all'avanguardia, ridimensionandosi in modo robusto a modelli con 32 miliardi di parametri.
English
Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are constructed and interacted with at scale. During training, a fixed number of learnable Meta Tokens are appended to the input sequence. At test-time, their last-layer contextualized representations serve as compact yet expressive multi-vector embeddings. Through the proposed Matryoshka Multi-Vector Retrieval training, MetaEmbed learns to organize information by granularity across multiple vectors. As a result, we enable test-time scaling in multimodal retrieval, where users can balance retrieval quality against efficiency demands by selecting the number of tokens used for indexing and retrieval interactions. Extensive evaluations on the Massive Multimodal Embedding Benchmark (MMEB) and the Visual Document Retrieval Benchmark (ViDoRe) confirm that MetaEmbed achieves state-of-the-art retrieval performance while scaling robustly to models with 32B parameters.
PDF92September 23, 2025