RouteMoA: Enrutamiento Dinámico sin Preinferencia Potencia Mezcla de Agentes Eficiente
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
January 26, 2026
Autores: Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
cs.AI
Resumen
Mezcla de Agentes (MoA) mejora el rendimiento de los LLM mediante colaboración en capas, pero su topología densa incrementa costos y latencia. Los métodos existentes emplean jueces LLM para filtrar respuestas, pero aún requieren que todos los modelos realicen inferencia antes del juicio, sin lograr reducir costos efectivamente. También carecen de criterios de selección de modelos y tienen dificultades con pools grandes de modelos, donde la inferencia completa es costosa y puede exceder límites de contexto. Para abordarlo, proponemos RouteMoA, un marco eficiente de mezcla de agentes con enrutamiento dinámico. Emplea un evaluador ligero que realiza un cribado inicial prediciendo el rendimiento de granularidad gruesa desde la consulta, reduciendo los candidatos a un subconjunto de alto potencial sin inferencia. Una mezcla de jueces luego refina estas puntuaciones mediante autoevaluación y evaluación cruzada ligeras basadas en salidas existentes de modelos, proporcionando corrección posterior sin inferencia adicional. Finalmente, un mecanismo de clasificación de modelos selecciona modelos equilibrando rendimiento, costo y latencia. RouteMoA supera a MoA en diversas tareas y tamaños de pool de modelos, reduciendo el costo en un 89.8% y la latencia en un 63.6% en el pool de modelos a gran escala.
English
Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.