RouteMoA: Il Routing Dinamico senza Pre-Inferenza Potenzia l'Efficienza del Mixture-of-Agents

Abstract

RouteMoA migliora le prestazioni degli LLM attraverso una collaborazione a livelli, ma la sua topologia densa aumenta costi e latenza. I metodi esistenti impiegano giudici LLM per filtrare le risposte, ma richiedono comunque che tutti i modelli eseguano l'inferenza prima del giudizio, non riuscendo a ridurre efficacemente i costi. Manca inoltre un criterio di selezione dei modelli e si riscontrano difficoltà con pool di modelli ampi, dove l'inferenza completa è costosa e può superare i limiti del contesto. Per ovviare a ciò, proponiamo RouteMoA, un framework efficiente mixture-of-agents con instradamento dinamico. Utilizza un valutatore leggero per una selezione iniziale, prevedendo le prestazioni a grana grossa dalla query, restringendo i candidati a un sottoinsieme ad alto potenziale senza inferenza. Una miscela di giudici affina poi questi punteggi attraverso autovalutazioni e valutazioni incrociate leggere basate sugli output dei modelli esistenti, fornendo una correzione posteriorsenza ulteriore inferenza. Infine, un meccanismo di ranking seleziona i modelli bilanciando prestazioni, costo e latenza. RouteMoA supera il MoA in vari task e dimensioni del pool di modelli, riducendo i costi dell'89.8% e la latenza del 63.6% nel pool di modelli su larga scala.

English

Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.

RouteMoA: Il Routing Dinamico senza Pre-Inferenza Potenzia l'Efficienza del Mixture-of-Agents

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

Abstract

Support