MEXA : Vers un raisonnement multimodal général avec agrégation dynamique multi-experts
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Auteurs: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Résumé
La combinaison de modèles experts pré-entraînés offre un potentiel considérable pour le raisonnement multimodal évolutif, mais la construction d'un cadre unifié reste un défi en raison de la diversité croissante des modalités d'entrée et de la complexité des tâches. Par exemple, le diagnostic médical nécessite un raisonnement précis sur des tableaux cliniques structurés, tandis que la prévision financière dépend de l'interprétation de données graphiques pour formuler des prédictions éclairées. Pour relever ce défi, nous présentons MEXA, un cadre sans entraînement qui effectue une agrégation consciente des modalités et des tâches de plusieurs modèles experts afin de permettre un raisonnement multimodal efficace dans des domaines divers et distincts. MEXA sélectionne dynamiquement les modèles experts en fonction de la modalité d'entrée et des exigences de raisonnement spécifiques à la tâche (c'est-à-dire les compétences). Chaque modèle expert, spécialisé dans une paire modalité-tâche, génère des sorties de raisonnement textuelles interprétables. MEXA agrège ensuite ces sorties et raisonne dessus à l'aide d'un Grand Modèle de Raisonnement (LRM) pour produire la réponse finale. Cette conception modulaire permet un raisonnement multimodal flexible et transparent dans divers domaines sans surcharge d'entraînement supplémentaire. Nous évaluons largement notre approche sur divers benchmarks multimodaux, notamment le raisonnement vidéo, le raisonnement audio, la compréhension 3D et les questions-réponses médicales. MEXA améliore systématiquement les performances par rapport à des bases de référence multimodales solides, mettant en évidence l'efficacité et la large applicabilité de notre sélection et agrégation pilotées par des experts dans diverses tâches de raisonnement multimodal.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.