R2-T2:マルチモーダルMixture-of-Expertsにおけるテストタイム再ルーティング
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
著者: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
要旨
大規模マルチモーダルモデル(LMM)において、非言語モダリティ(例:視覚表現)の知覚能力は、大規模言語モデル(LLM)の強力な推論能力に匹敵しないことが多く、これが困難な下流タスクにおけるLMMの性能を阻害しています。この弱点は最近、視覚エンコーダをMixture-of-Experts(MoE)に置き換えることで緩和されました。MoEは、多様な下流タスクに必要な豊かで多粒度かつ多様な表現を提供します。マルチモーダルMoEの性能は、そのルーターに大きく依存します。ルーターは、各入力に対して異なるエキスパートの表現を再重み付けし、混合します。しかし、エンドツーエンドで訓練されたルーターが、すべてのテストサンプルに対して最適なルーティング重みを生成するとは限らないことがわかりました。このギャップを埋めるため、我々は新しい効率的な手法「テスト時再ルーティング(Re-Routing in Test-Time, R2-T2)」を提案します。この手法では、テストサンプルの近傍にある正しく予測されたサンプルのルーティング重みベクトルに向かって、テスト時のルーティング重みベクトルを局所的に最適化します。異なる最適化目標と近傍探索空間を持つ3つのR2-T2戦略を提案します。R2-T2は、ベースモデルのパラメータを一切訓練することなく、多様なタスクの困難なベンチマークにおいて、最先端のLMMの性能を一貫して大幅に向上させます。
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary