RouteMoA: Roteamento Dinâmico sem Pré-inferência Impulsiona Mistura Eficiente de Agentes

Resumo

O Mixture-of-Agents (MoA) melhora o desempenho de LLMs através de uma colaboração em camadas, mas a sua topologia densa aumenta os custos e a latência. Os métodos existentes utilizam LLMs como juízes para filtrar respostas, mas ainda exigem que todos os modelos realizem inferência antes da avaliação, não conseguindo reduzir custos de forma eficaz. Além disso, carecem de critérios de seleção de modelos e têm dificuldades com pools de modelos grandes, onde a inferência completa é dispendiosa e pode exceder os limites de contexto. Para resolver isto, propomos o RouteMoA, um framework eficiente de mixture-of-agents com roteamento dinâmico. Este emprega um avaliador leve para realizar uma triagem inicial, prevendo o desempenho de alto nível a partir da consulta, restringindo os candidatos a um subconjunto de alto potencial sem necessidade de inferência. Uma mistura de juízes refina então estas pontuações através de uma autoavaliação e avaliação cruzada leve, baseada nas saídas existentes dos modelos, fornecendo uma correção posterior sem inferência adicional. Finalmente, um mecanismo de classificação de modelos seleciona os modelos equilibrando desempenho, custo e latência. O RouteMoA supera o MoA em várias tarefas e tamanhos de pool de modelos, reduzindo o custo em 89,8% e a latência em 63,6% no pool de modelos de grande escala.

English

Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.