ChatPaper.aiChatPaper

R2-T2: Umleitung während der Testzeit für Multimodale Mixture-of-Experts

R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

February 27, 2025
Autoren: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI

Zusammenfassung

In großen multimodalen Modellen (LMMs) ist die Wahrnehmung nicht-sprachlicher Modalitäten (z. B. visuelle Repräsentationen) in der Regel nicht auf dem Niveau der leistungsstarken Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs), was die Leistung von LMMs bei anspruchsvollen Downstream-Aufgaben beeinträchtigt. Diese Schwäche wurde kürzlich dadurch gemildert, dass der Vision-Encoder durch ein Mixture-of-Experts (MoE) ersetzt wurde, das die für verschiedene Downstream-Aufgaben erforderlichen reichhaltigen, mehrgranularen und diversen Repräsentationen bereitstellt. Die Leistung des multimodalen MoE hängt weitgehend von seinem Router ab, der die Repräsentationen verschiedener Experten für jede Eingabe neu gewichtet und mischt. Wir stellen jedoch fest, dass der end-to-end trainierte Router nicht immer die optimalen Routing-Gewichte für jedes Testbeispiel erzeugt. Um diese Lücke zu schließen, schlagen wir eine neuartige und effiziente Methode „Re-Routing in Test-Time“ (R2-T2) vor, die den Vektor der Routing-Gewichte zur Testzeit lokal optimiert, indem er in Richtung der Vektoren korrekt vorhergesagter Beispiele in der Nachbarschaft des Testbeispiels verschoben wird. Wir schlagen drei R2-T2-Strategien mit unterschiedlichen Optimierungszielen und Nachbarschaftssuchräumen vor. R2-T2 verbessert die Leistung modernster LMMs durchgängig und erheblich auf anspruchsvollen Benchmarks für verschiedene Aufgaben, ohne dass Parameter des Basismodells trainiert werden müssen.
English
In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks, without training any base-model parameters.

Summary

AI-Generated Summary

PDF475February 28, 2025