R2-T2: Reenrutamiento en Tiempo de Prueba para Mezcla de Expertos Multimodal
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Autores: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Resumen
En los modelos multimodales de gran escala (LMMs), la percepción de modalidades no lingüísticas (por ejemplo, representaciones visuales) generalmente no está a la par con las poderosas capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs), lo que limita el rendimiento de los LMMs en tareas posteriores desafiantes. Esta debilidad se ha mitigado recientemente al reemplazar el codificador visual con una mezcla de expertos (MoE), que proporciona representaciones ricas, multigranulares y diversas requeridas por diversas tareas posteriores. El rendimiento del MoE multimodal depende en gran medida de su enrutador, que reajusta y mezcla las representaciones de diferentes expertos para cada entrada. Sin embargo, encontramos que el enrutador entrenado de extremo a extremo no siempre produce los pesos de enrutamiento óptimos para cada muestra de prueba. Para cerrar esta brecha, proponemos un método novedoso y eficiente llamado "Re-Enrutamiento en Tiempo de Prueba" (R2-T2) que optimiza localmente el vector de pesos de enrutamiento en tiempo de prueba moviéndolo hacia aquellos vectores de las muestras correctamente predichas en un vecindario de la muestra de prueba. Proponemos tres estrategias de R2-T2 con diferentes objetivos de optimización y espacios de búsqueda de vecindarios. R2-T2 mejora de manera consistente y significativa el rendimiento de los LMMs de vanguardia en puntos de referencia desafiantes de diversas tareas, sin entrenar ningún parámetro del modelo base.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary