MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Autori: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Abstract
La combinazione di modelli esperti pre-addestrati offre un potenziale significativo per il ragionamento multimodale scalabile, ma la creazione di un framework unificato rimane una sfida a causa della crescente diversità delle modalità di input e della complessità dei compiti. Ad esempio, la diagnosi medica richiede un ragionamento preciso su tabelle cliniche strutturate, mentre la previsione finanziaria dipende dall'interpretazione di dati basati su grafici per effettuare previsioni informate. Per affrontare questa sfida, introduciamo MEXA, un framework senza necessità di addestramento che esegue un'aggregazione consapevole della modalità e del compito di più modelli esperti per abilitare un ragionamento multimodale efficace in domini diversi e distinti. MEXA seleziona dinamicamente i modelli esperti in base alla modalità di input e alle esigenze di ragionamento specifiche del compito (ovvero, le competenze). Ogni modello esperto, specializzato in una coppia modalità-compito, genera output di ragionamento testuali interpretabili. MEXA aggrega e ragiona su questi output utilizzando un Large Reasoning Model (LRM) per produrre la risposta finale. Questo design modulare consente un ragionamento multimodale flessibile e trasparente in diversi domini senza ulteriori costi di addestramento. Valutiamo ampiamente il nostro approccio su diversi benchmark multimodali, tra cui Ragionamento Video, Ragionamento Audio, Comprensione 3D e QA Medico. MEXA fornisce costantemente miglioramenti delle prestazioni rispetto a forti baseline multimodali, evidenziando l'efficacia e l'ampia applicabilità della nostra selezione e aggregazione guidata da esperti in vari compiti di ragionamento multimodale.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.