MEXA: Hacia un Razonamiento Multimodal General con Agregación Dinámica de Múltiples Expertos
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Autores: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Resumen
La combinación de modelos expertos preentrenados ofrece un potencial considerable para el razonamiento multimodal escalable, pero la construcción de un marco unificado sigue siendo un desafío debido a la creciente diversidad de modalidades de entrada y la complejidad de las tareas. Por ejemplo, el diagnóstico médico requiere un razonamiento preciso sobre tablas clínicas estructuradas, mientras que la previsión financiera depende de la interpretación de datos basados en gráficos para realizar predicciones informadas. Para abordar este desafío, presentamos MEXA, un marco libre de entrenamiento que realiza una agregación consciente de la modalidad y la tarea de múltiples modelos expertos para permitir un razonamiento multimodal efectivo en diversos y distintos dominios. MEXA selecciona dinámicamente modelos expertos en función de la modalidad de entrada y las demandas de razonamiento específicas de la tarea (es decir, habilidades). Cada modelo experto, especializado en un par de modalidad y tarea, genera salidas de razonamiento textual interpretables. MEXA luego agrega y razona sobre estas salidas utilizando un Modelo de Razonamiento de Gran Escala (LRM, por sus siglas en inglés) para producir la respuesta final. Este diseño modular permite un razonamiento multimodal flexible y transparente en diversos dominios sin sobrecargas adicionales de entrenamiento. Evaluamos exhaustivamente nuestro enfoque en diversos puntos de referencia multimodales, incluyendo Razonamiento en Video, Razonamiento en Audio, Comprensión 3D y Preguntas y Respuestas Médicas. MEXA ofrece consistentemente mejoras en el rendimiento en comparación con líneas base multimodales sólidas, destacando la efectividad y amplia aplicabilidad de nuestra selección y agregación basada en expertos en diversas tareas de razonamiento multimodal.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.