R2-T2: Reencaminhamento no Tempo de Teste para uma Mistura de Especialistas Multimodal
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Autores: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Resumo
Em modelos multimodais grandes (LMMs), a percepção de modalidades não linguísticas (por exemplo, representações visuais) geralmente não está no mesmo nível das poderosas capacidades de raciocínio dos grandes modelos de linguagem (LLMs), o que prejudica o desempenho dos LMMs em tarefas desafiadoras. Essa fraqueza foi recentemente mitigada substituindo o codificador de visão por um modelo de mistura de especialistas (MoE), que fornece representações ricas, multigranulares e diversas necessárias para diversas tarefas subsequentes. O desempenho do MoE multimodal depende em grande parte de seu roteador, que repondera e mistura as representações de diferentes especialistas para cada entrada. No entanto, observamos que o roteador treinado de ponta a ponta nem sempre produz os pesos de roteamento ideais para cada amostra de teste. Para preencher essa lacuna, propomos um método novo e eficiente "Re-Routing in Test-Time (R2-T2)" que otimiza localmente o vetor de pesos de roteamento no momento do teste movendo-o em direção aos vetores das amostras corretamente previstas em uma vizinhança da amostra de teste. Propomos três estratégias R2-T2 com diferentes objetivos de otimização e espaços de busca de vizinhos. O R2-T2 melhora consistentemente e significativamente o desempenho dos LMMs de ponta em benchmarks desafiadores de tarefas diversas, sem treinar quaisquer parâmetros do modelo base.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary