MEXA: Rumo ao Raciocínio Multimodal Geral com Agregação Dinâmica de Múltiplos Especialistas
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
June 20, 2025
Autores: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI
Resumo
A combinação de modelos especializados pré-treinados oferece um potencial significativo para o raciocínio multimodal escalável, mas a construção de um framework unificado permanece desafiadora devido à crescente diversidade de modalidades de entrada e à complexidade das tarefas. Por exemplo, o diagnóstico médico requer raciocínio preciso sobre tabelas clínicas estruturadas, enquanto a previsão financeira depende da interpretação de dados baseados em gráficos para fazer previsões informadas. Para enfrentar esse desafio, apresentamos o MEXA, um framework que dispensa treinamento e realiza a agregação de múltiplos modelos especializados com consciência de modalidade e tarefa, permitindo um raciocínio multimodal eficaz em diversos e distintos domínios. O MEXA seleciona dinamicamente modelos especializados com base na modalidade de entrada e nas demandas de raciocínio específicas da tarefa (ou seja, habilidades). Cada modelo especializado, focado em um par de modalidade e tarefa, gera saídas de raciocínio textual interpretáveis. O MEXA então agrega e raciocina sobre essas saídas usando um Grande Modelo de Raciocínio (LRM, na sigla em inglês) para produzir a resposta final. Esse design modular permite um raciocínio multimodal flexível e transparente em diversos domínios sem a necessidade de sobrecarga adicional de treinamento. Avaliamos extensivamente nossa abordagem em diversos benchmarks multimodais, incluindo Raciocínio em Vídeo, Raciocínio em Áudio, Compreensão 3D e QA Médico. O MEXA consistentemente apresenta melhorias de desempenho em relação a fortes baselines multimodais, destacando a eficácia e a ampla aplicabilidade de nossa seleção e agregação orientada por especialistas em diversas tarefas de raciocínio multimodal.
English
Combining pre-trained expert models offers substantial potential for scalable
multimodal reasoning, but building a unified framework remains challenging due
to the increasing diversity of input modalities and task complexity. For
instance, medical diagnosis requires precise reasoning over structured clinical
tables, while financial forecasting depends on interpreting plot-based data to
make informed predictions. To tackle this challenge, we introduce MEXA, a
training-free framework that performs modality- and task-aware aggregation of
multiple expert models to enable effective multimodal reasoning across diverse
and distinct domains. MEXA dynamically selects expert models based on the input
modality and the task-specific reasoning demands (i.e., skills). Each expert
model, specialized in a modality task pair, generates interpretable textual
reasoning outputs. MEXA then aggregates and reasons over these outputs using a
Large Reasoning Model (LRM) to produce the final answer. This modular design
allows flexible and transparent multimodal reasoning across diverse domains
without additional training overhead. We extensively evaluate our approach on
diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D
Understanding, and Medical QA. MEXA consistently delivers performance
improvements over strong multimodal baselines, highlighting the effectiveness
and broad applicability of our expert-driven selection and aggregation in
diverse multimodal reasoning tasks.