R2-T2 : Réacheminement au moment du test pour les mélanges d'experts multimodaux
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Auteurs: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Résumé
Dans les grands modèles multimodaux (LMM), la perception des modalités non linguistiques (par exemple, les représentations visuelles) n'est généralement pas à la hauteur des puissantes capacités de raisonnement des grands modèles de langage (LLM), ce qui limite les performances des LMM sur des tâches en aval complexes. Cette faiblesse a récemment été atténuée en remplaçant l'encodeur visuel par un mélange d'experts (MoE), qui fournit des représentations riches, multi-granulaires et diversifiées nécessaires pour diverses tâches en aval. La performance du MoE multimodal dépend largement de son routeur, qui réajuste et mélange les représentations des différents experts pour chaque entrée. Cependant, nous constatons que le routeur entraîné de bout en bout ne produit pas toujours les poids de routage optimaux pour chaque échantillon de test. Pour combler cette lacune, nous proposons une méthode novatrice et efficace, "Re-Routing in Test-Time" (R2-T2), qui optimise localement le vecteur des poids de routage au moment du test en le rapprochant des vecteurs des échantillons correctement prédits dans un voisinage de l'échantillon de test. Nous proposons trois stratégies R2-T2 avec différents objectifs d'optimisation et espaces de recherche de voisinage. R2-T2 améliore de manière constante et significative les performances des LMM de pointe sur des benchmarks complexes pour diverses tâches, sans entraîner aucun paramètre du modèle de base.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary