RouteMoA : Routage dynamique sans pré-inférence pour optimiser les mélanges d'agents
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
January 26, 2026
papers.authors: Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
cs.AI
papers.abstract
RouteMoA améliore les performances des LLM grâce à une collaboration en couches, mais sa topologie dense augmente les coûts et la latence. Les méthodes existantes utilisent des juges LLM pour filtrer les réponses, mais nécessitent toujours que tous les modèles effectuent une inférence avant le jugement, sans réduire efficacement les coûts. Elles manquent également de critères de sélection des modèles et peinent avec de grands pools de modèles, où l'inférence complète est coûteuse et peut dépasser les limites du contexte. Pour résoudre ce problème, nous proposons RouteMoA, un framework de mélange d'agents efficace avec routage dynamique. Il utilise un évaluateur léger pour effectuer un premier tri en prédisant la performance granulaire à partir de la requête, réduisant les candidats à un sous-ensemble prometteur sans inférence. Un mélange de juges affine ensuite ces scores via une auto-évaluation et une évaluation croisée légères basées sur les sorties existantes des modèles, fournissant une correction a posteriori sans inférence supplémentaire. Enfin, un mécanisme de classement des modèles les sélectionne en équilibrant performance, coût et latence. RouteMoA surpasse le MoA sur diverses tâches et tailles de pool de modèles, réduisant le coût de 89,8 % et la latence de 63,6 % dans le pool de modèles à grande échelle.
English
Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.