Symbolic Mixture-of-Experts: Instradamento Adattivo Basato su Competenze per il Ragionamento Eterogeneo
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
March 7, 2025
Autori: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
cs.AI
Abstract
Combinare LLM esperti pre-addestrati esistenti rappresenta una promettente direzione per affrontare in modo scalabile compiti su larga scala e diversificati. Tuttavia, selezionare esperti a livello di task è spesso troppo grossolano, poiché task eterogenei possono richiedere competenze diverse per ogni istanza. Per abilitare una miscelazione adattiva a livello di istanza di LLM esperti pre-addestrati, proponiamo Symbolic-MoE, un framework Mixture-of-Experts simbolico, basato su testo e privo di gradienti. Symbolic-MoE adotta un approccio fine alla selezione, enfatizzando abilità specifiche, ad esempio l'algebra in matematica o la biologia molecolare nel ragionamento biomedico. Proponiamo una strategia di reclutamento basata sulle abilità che seleziona dinamicamente il set più rilevante di LLM esperti per compiti di ragionamento diversificati, in base ai loro punti di forza. Ogni esperto selezionato genera quindi il proprio ragionamento, producendo k output da k esperti, che vengono poi sintetizzati in una risposta finale di alta qualità da un aggregatore scelto in base alla sua capacità di integrare output di ragionamento diversi. Dimostriamo che la selezione di esperti a livello di istanza di Symbolic-MoE migliora le prestazioni in modo significativo, ma — se implementata in modo ingenuo — può introdurre un elevato sovraccarico computazionale a causa della necessità di caricare e scaricare costantemente i modelli. Per affrontare questo problema, implementiamo una strategia di inferenza batch che raggruppa le istanze in base agli esperti assegnati, caricando ciascun modello una sola volta. Ciò ci permette di integrare 16 modelli esperti su 1 GPU con un costo temporale paragonabile o migliore rispetto ai precedenti approcci multi-agente che utilizzano 4 GPU. Attraverso valutazioni estensive su benchmark diversificati (MMLU-Pro, GPQA, AIME e MedMCQA), dimostriamo che Symbolic-MoE supera LLM potenti come GPT4o-mini, nonché approcci multi-agente, con un miglioramento medio assoluto dell'8,15% rispetto al miglior baseline multi-agente. Inoltre, Symbolic-MoE elimina la necessità di costose discussioni multi-round, superando i baseline di discussione con un minor costo computazionale.
English
Combining existing pre-trained expert LLMs is a promising avenue for scalably
tackling large-scale and diverse tasks. However, selecting experts at the task
level is often too coarse-grained, as heterogeneous tasks may require different
expertise for each instance. To enable adaptive instance-level mixing of
pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and
gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained
approach to selection by emphasizing skills, e.g., algebra in math or molecular
biology in biomedical reasoning. We propose a skill-based recruiting strategy
that dynamically selects the most relevant set of expert LLMs for diverse
reasoning tasks based on their strengths. Each selected expert then generates
its own reasoning, resulting in k outputs from k experts, which are then
synthesized into a final high-quality response by an aggregator chosen based on
its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE's
instance-level expert selection improves performance by a large margin but --
when implemented naively -- can introduce a high computational overhead due to
the need for constant model loading and offloading. To address this, we
implement a batch inference strategy that groups instances based on their
assigned experts, loading each model only once. This allows us to integrate 16
expert models on 1 GPU with a time cost comparable to or better than prior
multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse
benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that
Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent
approaches, with an absolute average improvement of 8.15% over the best
multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive
multi-round discussions, outperforming discussion baselines with less
computation.Summary
AI-Generated Summary