Символическая смесь экспертов: адаптивная маршрутизация на основе навыков для гетерогенного рассуждения
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
March 7, 2025
Авторы: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
cs.AI
Аннотация
Объединение существующих предварительно обученных экспертных моделей языка (LLM) представляет собой перспективный подход для масштабируемого решения крупных и разнообразных задач. Однако выбор экспертов на уровне задачи часто оказывается слишком грубым, поскольку разнородные задачи могут требовать различных экспертных знаний для каждого отдельного случая. Чтобы обеспечить адаптивное смешение предварительно обученных экспертных LLM на уровне экземпляра, мы предлагаем Symbolic-MoE — символическую, текстовую и градиент-свободную структуру Mixture-of-Experts. Symbolic-MoE использует детализированный подход к выбору, акцентируя внимание на навыках, таких как алгебра в математике или молекулярная биология в биомедицинских рассуждениях. Мы предлагаем стратегию набора на основе навыков, которая динамически выбирает наиболее подходящий набор экспертных LLM для разнообразных задач рассуждения, основываясь на их сильных сторонах. Каждый выбранный эксперт генерирует собственное рассуждение, что приводит к k выходам от k экспертов, которые затем синтезируются в окончательный высококачественный ответ агрегатором, выбранным на основе его способности интегрировать разнообразные результаты рассуждений. Мы показываем, что выбор экспертов на уровне экземпляра в Symbolic-MoE значительно улучшает производительность, но при наивной реализации может привести к высоким вычислительным затратам из-за необходимости постоянной загрузки и выгрузки моделей. Чтобы решить эту проблему, мы реализуем стратегию пакетного вывода, которая группирует экземпляры на основе назначенных экспертов, загружая каждую модель только один раз. Это позволяет нам интегрировать 16 экспертных моделей на одном GPU с временными затратами, сопоставимыми или лучшими, чем у предыдущих мультиагентных базовых подходов, использующих 4 GPU. В ходе обширных оценок на различных тестовых наборах (MMLU-Pro, GPQA, AIME и MedMCQA) мы демонстрируем, что Symbolic-MoE превосходит мощные LLM, такие как GPT4o-mini, а также мультиагентные подходы, с абсолютным средним улучшением на 8,15% по сравнению с лучшим мультиагентным базовым подходом. Более того, Symbolic-MoE устраняет необходимость в дорогостоящих многораундовых обсуждениях, превосходя базовые подходы с обсуждениями при меньших вычислительных затратах.
English
Combining existing pre-trained expert LLMs is a promising avenue for scalably
tackling large-scale and diverse tasks. However, selecting experts at the task
level is often too coarse-grained, as heterogeneous tasks may require different
expertise for each instance. To enable adaptive instance-level mixing of
pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and
gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained
approach to selection by emphasizing skills, e.g., algebra in math or molecular
biology in biomedical reasoning. We propose a skill-based recruiting strategy
that dynamically selects the most relevant set of expert LLMs for diverse
reasoning tasks based on their strengths. Each selected expert then generates
its own reasoning, resulting in k outputs from k experts, which are then
synthesized into a final high-quality response by an aggregator chosen based on
its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE's
instance-level expert selection improves performance by a large margin but --
when implemented naively -- can introduce a high computational overhead due to
the need for constant model loading and offloading. To address this, we
implement a batch inference strategy that groups instances based on their
assigned experts, loading each model only once. This allows us to integrate 16
expert models on 1 GPU with a time cost comparable to or better than prior
multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse
benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that
Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent
approaches, with an absolute average improvement of 8.15% over the best
multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive
multi-round discussions, outperforming discussion baselines with less
computation.Summary
AI-Generated Summary