MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti

Abstract

La combinazione di modelli esperti pre-addestrati offre un potenziale significativo per il ragionamento multimodale scalabile, ma la creazione di un framework unificato rimane una sfida a causa della crescente diversità delle modalità di input e della complessità dei compiti. Ad esempio, la diagnosi medica richiede un ragionamento preciso su tabelle cliniche strutturate, mentre la previsione finanziaria dipende dall'interpretazione di dati basati su grafici per effettuare previsioni informate. Per affrontare questa sfida, introduciamo MEXA, un framework senza necessità di addestramento che esegue un'aggregazione consapevole della modalità e del compito di più modelli esperti per abilitare un ragionamento multimodale efficace in domini diversi e distinti. MEXA seleziona dinamicamente i modelli esperti in base alla modalità di input e alle esigenze di ragionamento specifiche del compito (ovvero, le competenze). Ogni modello esperto, specializzato in una coppia modalità-compito, genera output di ragionamento testuali interpretabili. MEXA aggrega e ragiona su questi output utilizzando un Large Reasoning Model (LRM) per produrre la risposta finale. Questo design modulare consente un ragionamento multimodale flessibile e trasparente in diversi domini senza ulteriori costi di addestramento. Valutiamo ampiamente il nostro approccio su diversi benchmark multimodali, tra cui Ragionamento Video, Ragionamento Audio, Comprensione 3D e QA Medico. MEXA fornisce costantemente miglioramenti delle prestazioni rispetto a forti baseline multimodali, evidenziando l'efficacia e l'ampia applicabilità della nostra selezione e aggregazione guidata da esperti in vari compiti di ragionamento multimodale.

English

Combining pre-trained expert models offers substantial potential for scalable multimodal reasoning, but building a unified framework remains challenging due to the increasing diversity of input modalities and task complexity. For instance, medical diagnosis requires precise reasoning over structured clinical tables, while financial forecasting depends on interpreting plot-based data to make informed predictions. To tackle this challenge, we introduce MEXA, a training-free framework that performs modality- and task-aware aggregation of multiple expert models to enable effective multimodal reasoning across diverse and distinct domains. MEXA dynamically selects expert models based on the input modality and the task-specific reasoning demands (i.e., skills). Each expert model, specialized in a modality task pair, generates interpretable textual reasoning outputs. MEXA then aggregates and reasons over these outputs using a Large Reasoning Model (LRM) to produce the final answer. This modular design allows flexible and transparent multimodal reasoning across diverse domains without additional training overhead. We extensively evaluate our approach on diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D Understanding, and Medical QA. MEXA consistently delivers performance improvements over strong multimodal baselines, highlighting the effectiveness and broad applicability of our expert-driven selection and aggregation in diverse multimodal reasoning tasks.

MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

Abstract

Support