R2-T2: Herroutering tijdens testtijd voor multimodale mengvormen van experts
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Auteurs: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Samenvatting
In grote multimodale modellen (LMM's) is de perceptie van niet-talige modaliteiten (bijv. visuele representaties) meestal niet gelijk aan de krachtige redeneermogelijkheden van grote taalmodellen (LLM's), waardoor de prestaties van LMM's op uitdagende downstream taken worden belemmerd. Deze zwakte is recentelijk verminderd door de visuele encoder te vervangen door een mengsel-van-experts (MoE), die rijke, multi-granulaire en diverse representaties biedt die vereist zijn voor diverse downstream taken. De prestatie van multimodale MoE is grotendeels afhankelijk van zijn router, die de representaties van verschillende experts voor elk invoer herweegt en mengt. We vinden echter dat de end-to-end getrainde router niet altijd optimale routingsgewichten produceert voor elk testvoorbeeld. Om deze kloof te overbruggen, stellen we een nieuw en efficiënte methode voor genaamd "Her-Routing in Test-Tijd (R2-T2)" die lokaal de vector van routingsgewichten optimaliseert in testtijd door deze te verplaatsen naar die vectoren van correct voorspelde voorbeelden in een buurt van het testvoorbeeld. We stellen drie R2-T2 strategieën voor met verschillende optimalisatiedoelen en zoekruimtes voor buren. R2-T2 verbetert consequent en aanzienlijk de prestaties van toonaangevende LMM's op uitdagende benchmarks van diverse taken, zonder enige basismodelparameters te trainen.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary