R2-T2: Reindirizzamento in fase di test per Mixture-of-Experts multimodale
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Autori: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Abstract
Nei grandi modelli multimodali (LMM), la percezione delle modalità non linguistiche (ad esempio, rappresentazioni visive) di solito non è alla pari con le potenti capacità di ragionamento dei grandi modelli linguistici (LLM), limitando le prestazioni degli LMM su compiti downstream impegnativi. Questa debolezza è stata recentemente mitigata sostituendo l'encoder visivo con una miscela di esperti (MoE), che fornisce rappresentazioni ricche, multi-granularità e diversificate necessarie per compiti downstream vari. La performance del MoE multimodale dipende in gran parte dal suo router, che ricalibra e miscela le rappresentazioni di diversi esperti per ogni input. Tuttavia, abbiamo osservato che il router addestrato end-to-end non produce sempre i pesi di routing ottimali per ogni campione di test. Per colmare questa lacuna, proponiamo un metodo nuovo ed efficiente chiamato "Re-Routing in Test-Time" (R2-T2) che ottimizza localmente il vettore dei pesi di routing durante il test spostandolo verso i vettori dei campioni correttamente predetti in un intorno del campione di test. Proponiamo tre strategie R2-T2 con diversi obiettivi di ottimizzazione e spazi di ricerca dei vicini. R2-T2 migliora in modo consistente e significativo le prestazioni degli LMM all'avanguardia su benchmark impegnativi di compiti diversi, senza addestrare alcun parametro del modello di base.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary