MEXA: Op Weg naar Algemene Multimodale Redenering met Dynamische Multi-Expert Aggregatie
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Auteurs: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Samenvatting
Het combineren van vooraf getrainde expertmodellen biedt aanzienlijk potentieel voor schaalbare multimodale redenering, maar het bouwen van een uniform raamwerk blijft uitdagend vanwege de toenemende diversiteit aan invoermodaliteiten en taakcomplexiteit. Zo vereist medische diagnose nauwkeurige redenering over gestructureerde klinische tabellen, terwijl financiële prognoses afhankelijk zijn van het interpreteren van plotgebaseerde gegevens om weloverwogen voorspellingen te doen. Om deze uitdaging aan te pakken, introduceren we MEXA, een trainingsvrij raamwerk dat modaliteits- en taakbewuste aggregatie van meerdere expertmodellen uitvoert om effectieve multimodale redenering over diverse en verschillende domeinen mogelijk te maken. MEXA selecteert dynamisch expertmodellen op basis van de invoermodaliteit en de taakspecifieke redeneringseisen (d.w.z. vaardigheden). Elk expertmodel, gespecialiseerd in een modaliteit-taakpaar, genereert interpreteerbare tekstuele redeneringsuitvoer. MEXA aggregeert en redeneert vervolgens over deze uitvoer met behulp van een Large Reasoning Model (LRM) om het uiteindelijke antwoord te produceren. Dit modulaire ontwerp maakt flexibele en transparante multimodale redenering over diverse domeinen mogelijk zonder extra trainingsoverhead. We evalueren onze aanpak uitgebreid op diverse multimodale benchmarks, waaronder Video Reasoning, Audio Reasoning, 3D Understanding en Medical QA. MEXA levert consistent prestatieverbeteringen op ten opzichte van sterke multimodale basislijnen, wat de effectiviteit en brede toepasbaarheid van onze expertgedreven selectie en aggregatie in diverse multimodale redeneertaken benadrukt.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.