Mezcla Simbólica de Expertos: Enrutamiento Adaptativo Basado en Habilidades para el Razonamiento Heterogéneo
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
March 7, 2025
Autores: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
cs.AI
Resumen
Combinar modelos de lenguaje grandes (LLM) expertos preentrenados existentes es un enfoque prometedor para abordar de manera escalable tareas diversas y a gran escala. Sin embargo, seleccionar expertos a nivel de tarea suele ser demasiado general, ya que tareas heterogéneas pueden requerir diferentes conocimientos para cada instancia. Para permitir una mezcla adaptativa a nivel de instancia de expertos LLM preentrenados, proponemos Symbolic-MoE, un marco Mixture-of-Experts simbólico, basado en texto y libre de gradientes. Symbolic-MoE adopta un enfoque detallado en la selección, enfatizando habilidades, por ejemplo, álgebra en matemáticas o biología molecular en razonamiento biomédico. Proponemos una estrategia de reclutamiento basada en habilidades que selecciona dinámicamente el conjunto más relevante de expertos LLM para diversas tareas de razonamiento según sus fortalezas. Cada experto seleccionado genera su propio razonamiento, resultando en k salidas de k expertos, que luego se sintetizan en una respuesta final de alta calidad por un agregador elegido según su capacidad para integrar resultados de razonamiento diversos. Mostramos que la selección de expertos a nivel de instancia de Symbolic-MoE mejora el rendimiento significativamente, pero —cuando se implementa de manera ingenua— puede introducir un alto costo computacional debido a la necesidad de cargar y descargar modelos constantemente. Para abordar esto, implementamos una estrategia de inferencia por lotes que agrupa instancias según sus expertos asignados, cargando cada modelo solo una vez. Esto nos permite integrar 16 modelos expertos en 1 GPU con un costo de tiempo comparable o mejor que enfoques multiagente anteriores que usan 4 GPUs. A través de evaluaciones extensas en diversos benchmarks (MMLU-Pro, GPQA, AIME y MedMCQA), demostramos que Symbolic-MoE supera a LLM fuertes como GPT4o-mini, así como a enfoques multiagente, con una mejora absoluta promedio del 8.15% sobre el mejor baseline multiagente. Además, Symbolic-MoE elimina la necesidad de discusiones multi-ronda costosas, superando a baselines de discusión con menos computación.
English
Combining existing pre-trained expert LLMs is a promising avenue for scalably
tackling large-scale and diverse tasks. However, selecting experts at the task
level is often too coarse-grained, as heterogeneous tasks may require different
expertise for each instance. To enable adaptive instance-level mixing of
pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and
gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained
approach to selection by emphasizing skills, e.g., algebra in math or molecular
biology in biomedical reasoning. We propose a skill-based recruiting strategy
that dynamically selects the most relevant set of expert LLMs for diverse
reasoning tasks based on their strengths. Each selected expert then generates
its own reasoning, resulting in k outputs from k experts, which are then
synthesized into a final high-quality response by an aggregator chosen based on
its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE's
instance-level expert selection improves performance by a large margin but --
when implemented naively -- can introduce a high computational overhead due to
the need for constant model loading and offloading. To address this, we
implement a batch inference strategy that groups instances based on their
assigned experts, loading each model only once. This allows us to integrate 16
expert models on 1 GPU with a time cost comparable to or better than prior
multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse
benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that
Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent
approaches, with an absolute average improvement of 8.15% over the best
multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive
multi-round discussions, outperforming discussion baselines with less
computation.Summary
AI-Generated Summary