RouteMoA: Dynamisches Routing ohne Vorab-Inferenz steigert Effizienz von Mixture-of-Agents

papers.abstract

Mixture-of-Agents (MoA) verbessert die Leistung von LLMs durch geschichtete Zusammenarbeit, doch seine dichte Topologie erhöht Kosten und Latenz. Bestehende Methoden setzen LLM-Judges ein, um Antworten zu filtern, erfordern aber dennoch, dass alle Modelle vor der Bewertung Inferenz durchführen, was Kosten nicht effektiv senkt. Zudem fehlen ihnen Modellauswahlkriterien und sie haben Schwierigkeiten mit großen Modellpools, bei denen vollständige Inferenz kostspielig ist und Kontextlimits überschreiten kann. Um dies zu lösen, schlagen wir RouteMoA vor, ein effizientes Mixture-of-Agents-Framework mit dynamischem Routing. Es nutzt einen leichten Scorer für eine erste Vorauswahl, indem er grobkörnige Leistung anhand der Anfrage vorhersagt und die Kandidaten auf eine hochpotente Teilmenge ohne Inferenz eingrenzt. Eine Mischung von Judges verfeinert diese Scores dann durch leichte Selbst- und Fremdbewertung basierend auf vorhandenen Modellausgaben, was eine Nachkorrektur ohne zusätzliche Inferenz ermöglicht. Schließlich wählt ein Modellranking-Mechanismus Modelle aus, indem Leistung, Kosten und Latenz abgewogen werden. RouteMoA übertrifft MoA in verschiedenen Aufgaben und Modellpoolgrößen und reduziert die Kosten um 89,8 % und die Latenz um 63,6 % im großskaligen Modellpool.

English

Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.

RouteMoA: Dynamisches Routing ohne Vorab-Inferenz steigert Effizienz von Mixture-of-Agents

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

papers.abstract

Support