Mélange Symbolique d'Experts : Routage Adaptatif Basé sur les Compétences pour le Raisonnement Hétérogène
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
March 7, 2025
Auteurs: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
cs.AI
Résumé
La combinaison de modèles de langage pré-entraînés (LLM) experts existants représente une voie prometteuse pour aborder de manière évolutive des tâches à grande échelle et diversifiées. Cependant, la sélection d'experts au niveau de la tâche est souvent trop grossière, car des tâches hétérogènes peuvent nécessiter des expertises différentes pour chaque instance. Pour permettre un mélange adaptatif au niveau de l'instance des LLM experts pré-entraînés, nous proposons Symbolic-MoE, un cadre Mixture-of-Experts symbolique, basé sur le texte et sans gradient. Symbolic-MoE adopte une approche fine de la sélection en mettant l'accent sur les compétences, par exemple l'algèbre en mathématiques ou la biologie moléculaire dans le raisonnement biomédical. Nous proposons une stratégie de recrutement basée sur les compétences qui sélectionne dynamiquement l'ensemble le plus pertinent de LLM experts pour diverses tâches de raisonnement en fonction de leurs points forts. Chaque expert sélectionné génère ensuite son propre raisonnement, produisant ainsi k sorties de k experts, qui sont ensuite synthétisées en une réponse finale de haute qualité par un agrégateur choisi en fonction de sa capacité à intégrer des sorties de raisonnement diverses. Nous montrons que la sélection d'experts au niveau de l'instance de Symbolic-MoE améliore considérablement les performances, mais -- lorsqu'elle est mise en œuvre de manière naïve -- peut introduire une surcharge computationnelle élevée en raison de la nécessité de charger et décharger constamment les modèles. Pour résoudre ce problème, nous mettons en œuvre une stratégie d'inférence par lots qui regroupe les instances en fonction des experts qui leur sont attribués, chargeant ainsi chaque modèle une seule fois. Cela nous permet d'intégrer 16 modèles experts sur 1 GPU avec un coût temporel comparable ou meilleur que les approches multi-agents précédentes utilisant 4 GPU. Grâce à des évaluations approfondies sur divers benchmarks (MMLU-Pro, GPQA, AIME et MedMCQA), nous démontrons que Symbolic-MoE surpasse des LLM puissants comme GPT4o-mini, ainsi que des approches multi-agents, avec une amélioration moyenne absolue de 8,15 % par rapport à la meilleure base multi-agent. De plus, Symbolic-MoE élimine le besoin de discussions multi-tours coûteuses, surpassant les bases de discussion avec moins de calculs.
English
Combining existing pre-trained expert LLMs is a promising avenue for scalably
tackling large-scale and diverse tasks. However, selecting experts at the task
level is often too coarse-grained, as heterogeneous tasks may require different
expertise for each instance. To enable adaptive instance-level mixing of
pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and
gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained
approach to selection by emphasizing skills, e.g., algebra in math or molecular
biology in biomedical reasoning. We propose a skill-based recruiting strategy
that dynamically selects the most relevant set of expert LLMs for diverse
reasoning tasks based on their strengths. Each selected expert then generates
its own reasoning, resulting in k outputs from k experts, which are then
synthesized into a final high-quality response by an aggregator chosen based on
its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE's
instance-level expert selection improves performance by a large margin but --
when implemented naively -- can introduce a high computational overhead due to
the need for constant model loading and offloading. To address this, we
implement a batch inference strategy that groups instances based on their
assigned experts, loading each model only once. This allows us to integrate 16
expert models on 1 GPU with a time cost comparable to or better than prior
multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse
benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that
Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent
approaches, with an absolute average improvement of 8.15% over the best
multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive
multi-round discussions, outperforming discussion baselines with less
computation.Summary
AI-Generated Summary