ChatPaper.aiChatPaper

MEXA: В направлении универсального мультимодального рассуждения с динамической агрегацией множества экспертов

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

June 20, 2025
Авторы: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
cs.AI

Аннотация

Объединение предварительно обученных экспертных моделей открывает значительные возможности для масштабируемого мультимодального рассуждения, однако создание унифицированной структуры остается сложной задачей из-за растущего разнообразия входных модальностей и сложности задач. Например, медицинская диагностика требует точного рассуждения на основе структурированных клинических таблиц, тогда как финансовое прогнозирование зависит от интерпретации данных, представленных в виде графиков, для принятия обоснованных решений. Для решения этой проблемы мы представляем MEXA — структуру, не требующую дополнительного обучения, которая выполняет модальностно- и задачно-ориентированную агрегацию нескольких экспертных моделей для эффективного мультимодального рассуждения в различных и разнородных областях. MEXA динамически выбирает экспертные модели на основе входной модальности и требований к рассуждению, специфичным для задачи (т.е. навыков). Каждая экспертная модель, специализирующаяся на паре модальность-задача, генерирует интерпретируемые текстовые выводы рассуждений. MEXA затем агрегирует и анализирует эти выводы с использованием Модели Крупного Рассуждения (LRM) для получения окончательного ответа. Такой модульный дизайн обеспечивает гибкое и прозрачное мультимодальное рассуждение в различных областях без дополнительных затрат на обучение. Мы тщательно оцениваем наш подход на разнообразных мультимодальных тестах, включая Видео Рассуждение, Аудио Рассуждение, 3D Понимание и Медицинские Вопросы и Ответы. MEXA демонстрирует стабильное улучшение производительности по сравнению с сильными мультимодальными базовыми моделями, подчеркивая эффективность и широкую применимость нашего экспертно-ориентированного выбора и агрегации в разнообразных задачах мультимодального рассуждения.
English
Combining pre-trained expert models offers substantial potential for scalable multimodal reasoning, but building a unified framework remains challenging due to the increasing diversity of input modalities and task complexity. For instance, medical diagnosis requires precise reasoning over structured clinical tables, while financial forecasting depends on interpreting plot-based data to make informed predictions. To tackle this challenge, we introduce MEXA, a training-free framework that performs modality- and task-aware aggregation of multiple expert models to enable effective multimodal reasoning across diverse and distinct domains. MEXA dynamically selects expert models based on the input modality and the task-specific reasoning demands (i.e., skills). Each expert model, specialized in a modality task pair, generates interpretable textual reasoning outputs. MEXA then aggregates and reasons over these outputs using a Large Reasoning Model (LRM) to produce the final answer. This modular design allows flexible and transparent multimodal reasoning across diverse domains without additional training overhead. We extensively evaluate our approach on diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D Understanding, and Medical QA. MEXA consistently delivers performance improvements over strong multimodal baselines, highlighting the effectiveness and broad applicability of our expert-driven selection and aggregation in diverse multimodal reasoning tasks.
PDF42June 23, 2025