RouteMoA: 사전 추론 없이 동적 라우팅으로 효율적인 에이전트 혼합 구현
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
January 26, 2026
저자: Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
cs.AI
초록
혼합 에이전트(MoA)는 계층적 협력을 통해 LLM 성능을 향상시키지만, 밀집된 토폴로지로 인해 비용과 지연 시간이 증가합니다. 기존 방법은 LLM 판단기를 사용하여 응답을 필터링하지만, 여전히 판단 전에 모든 모델의 추론을 수행해야 하므로 비용 절감 효과가 미흡합니다. 또한 모델 선정 기준이 부재하고 대규모 모델 풀에서 전체 추론 비용이 높아지며 컨텍스트 제한을 초과할 수 있는 문제점이 있습니다. 이를 해결하기 위해 우리는 동적 라우팅을 적용한 효율적인 혼합 에이전트 프레임워크인 RouteMoA를 제안합니다. 본 프레임워크는 경량 스코어를 통해 질의만으로 조악한 성능을 예측하여 사전 추론 없이 후보 모델을 고성능 잠재력 집합으로 축소합니다. 이후 혼합 판단기가 기존 모델 출력을 기반으로 한 경량 자기 평가 및 상호 평가를 통해 점수를 정제하여 추가 추론 없이 사후 보정을 수행합니다. 마지막으로 모델 랭킹 메커니즘이 성능, 비용, 지연 시간을 균형 있게 고려하여 최종 모델을 선정합니다. RouteMoA는 다양한 작업 및 모델 풀 규모에서 MoA를 능가하며, 대규모 모델 풀에서 비용을 89.8%, 지연 시간을 63.6% 절감했습니다.
English
Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.