R2-T2: 멀티모달 전문가 혼합 모델을 위한 테스트 타임 재라우팅
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
저자: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
초록
대규모 멀티모달 모델(LMMs)에서 비언어적 모달리티(예: 시각적 표현)의 인식 능력은 일반적으로 대규모 언어 모델(LLMs)의 강력한 추론 능력에 미치지 못하며, 이는 LMMs가 도전적인 다운스트림 작업에서의 성능을 저하시키는 요인으로 작용합니다. 이러한 약점은 최근 비전 인코더를 전문가 혼합(MoE) 방식으로 대체함으로써 완화되었는데, 이는 다양한 다운스트림 작업에 필요한 풍부하고, 다중 세분성 및 다양한 표현을 제공합니다. 멀티모달 MoE의 성능은 주로 라우터에 달려 있으며, 이 라우터는 각 입력에 대해 서로 다른 전문가들의 표현을 재가중하고 혼합합니다. 그러나 우리는 종단간 학습된 라우터가 모든 테스트 샘플에 대해 최적의 라우팅 가중치를 항상 생성하지는 않는다는 사실을 발견했습니다. 이러한 격차를 해소하기 위해, 우리는 테스트 시간에 라우팅 가중치 벡터를 테스트 샘플의 이웃에 있는 올바르게 예측된 샘플들의 벡터 방향으로 이동시켜 국소적으로 최적화하는 "테스트 시간 재라우팅(Re-Routing in Test-Time, R2-T2)"이라는 새로운 효율적인 방법을 제안합니다. 우리는 서로 다른 최적화 목표와 이웃 탐색 공간을 가진 세 가지 R2-T2 전략을 제안합니다. R2-T2는 기본 모델의 매개변수를 추가로 학습하지 않고도, 다양한 작업의 도전적인 벤치마크에서 최첨단 LMMs의 성능을 일관되게 크게 향상시킵니다.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary