MEXA: Auf dem Weg zu allgemeiner multimodaler Argumentation mit dynamischer Multi-Experten-Aggregation
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Autoren: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Zusammenfassung
Die Kombination vortrainierter Expertenmodelle bietet erhebliches Potenzial für skalierbares multimodales Denken, doch die Entwicklung eines einheitlichen Frameworks bleibt aufgrund der zunehmenden Vielfalt von Eingabemodalitäten und Aufgabenkomplexität eine Herausforderung. Beispielsweise erfordert die medizinische Diagnose präzises Denken über strukturierte klinische Tabellen, während die Finanzprognose auf der Interpretation von diagrammbasierten Daten beruht, um fundierte Vorhersagen zu treffen. Um diese Herausforderung zu bewältigen, stellen wir MEXA vor, ein trainingsfreies Framework, das eine modalitäts- und aufgabenbewusste Aggregation mehrerer Expertenmodelle durchführt, um effektives multimodales Denken über diverse und unterschiedliche Domänen hinweg zu ermöglichen. MEXA wählt dynamisch Expertenmodelle basierend auf der Eingabemodalität und den aufgabenspezifischen Denkanforderungen (d. h. Fähigkeiten) aus. Jedes Expertenmodell, das auf ein Modalitäts-Aufgaben-Paar spezialisiert ist, erzeugt interpretierbare textuelle Denkausgaben. MEXA aggregiert und denkt dann über diese Ausgaben mithilfe eines Large Reasoning Models (LRM) nach, um die endgültige Antwort zu erzeugen. Dieses modulare Design ermöglicht flexibles und transparentes multimodales Denken über diverse Domänen hinweg ohne zusätzlichen Trainingsaufwand. Wir evaluieren unseren Ansatz umfassend auf verschiedenen multimodalen Benchmarks, darunter Video Reasoning, Audio Reasoning, 3D-Verständnis und Medical QA. MEXA erzielt durchweg Leistungsverbesserungen gegenüber starken multimodalen Baselines, was die Wirksamkeit und breite Anwendbarkeit unserer expertengetriebenen Auswahl und Aggregation in verschiedenen multimodalen Denkaufgaben unterstreicht.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.