ChatPaper.aiChatPaper

RouteMoA: 事前推論不要の動的ルーティングによる効率的なMixture-of-Agentsの実現

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

January 26, 2026
著者: Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
cs.AI

要旨

RouteMoA:動的ルーティングによる効率的なエージェント混合フレームワーク エージェントの混合(MoA)は階層的な協調により大規模言語モデル(LLM)の性能を向上させるが、その密なトポロジーはコストと遅延を増大させる。既存手法はLLM審査員を導入して応答を選別するものの、判断前に全モデルの推論を要するため、コスト削減効果が不十分である。さらにモデル選択基準が明確でなく、大規模モデルプールでは完全な推論が高コストとなり、コンテキスト長の制約を超える課題もある。これらの課題に対処するため、本論文では動的ルーティングを備えた効率的なエージェント混合フレームワーク「RouteMoA」を提案する。本手法は軽量スコアラーによりクエリから大まかな性能を予測し、推論を伴わずに高潜在能力候補を選別する。次に、複数の審査員が既存のモデル出力に基づく軽量な自己評価・相互評価によりスコアを精密化し、追加推論なしで事後補正を実現する。最後に、性能・コスト・遅延を均衡させるモデルランキング機構により最適なモデルを選択する。RouteMoAは様々なタスク及びモデルプール規模においてMoAを凌駕し、大規模モデルプールではコストを89.8%、遅延を63.6%削減する。
English
Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.
PDF11January 28, 2026