Arch-Router: Alinhando o Roteamento de LLMs com as Preferências Humanas
Arch-Router: Aligning LLM Routing with Human Preferences
June 19, 2025
Autores: Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen
cs.AI
Resumo
Com a rápida proliferação de grandes modelos de linguagem (LLMs) -- cada um otimizado para diferentes pontos fortes, estilos ou perfis de latência/custo -- o roteamento tornou-se uma técnica essencial para operacionalizar o uso de diferentes modelos. No entanto, as abordagens existentes de roteamento de LLMs são limitadas de duas maneiras principais: elas avaliam o desempenho usando benchmarks que frequentemente falham em capturar as preferências humanas guiadas por critérios de avaliação subjetivos, e elas normalmente selecionam a partir de um conjunto limitado de modelos. Neste trabalho, propomos uma estrutura de roteamento alinhada a preferências que orienta a seleção de modelos ao associar consultas a domínios definidos pelo usuário (por exemplo, viagens) ou tipos de ação (por exemplo, edição de imagens) -- oferecendo um mecanismo prático para codificar preferências em decisões de roteamento. Especificamente, introduzimos o Arch-Router, um modelo compacto de 1,5B que aprende a mapear consultas para preferências de domínio-ação para decisões de roteamento de modelos. Nossa abordagem também suporta a adição contínua de novos modelos para roteamento sem a necessidade de retreinamento ou modificações arquitetônicas. Experimentos em conjuntos de dados conversacionais demonstram que nossa abordagem alcança resultados de última geração (SOTA) na correspondência de consultas com preferências humanas, superando os principais modelos proprietários. Nossa abordagem captura critérios de avaliação subjetivos e torna as decisões de roteamento mais transparentes e flexíveis. Nosso modelo está disponível em: https://huggingface.co/katanemo/Arch-Router-1.5B.
English
With the rapid proliferation of large language models (LLMs) -- each
optimized for different strengths, style, or latency/cost profile -- routing
has become an essential technique to operationalize the use of different
models. However, existing LLM routing approaches are limited in two key ways:
they evaluate performance using benchmarks that often fail to capture human
preferences driven by subjective evaluation criteria, and they typically select
from a limited pool of models. In this work, we propose a preference-aligned
routing framework that guides model selection by matching queries to
user-defined domains (e.g., travel) or action types (e.g., image editing) --
offering a practical mechanism to encode preferences in routing decisions.
Specifically, we introduce Arch-Router, a compact 1.5B model that
learns to map queries to domain-action preferences for model routing decisions.
Our approach also supports seamlessly adding new models for routing without
requiring retraining or architectural modifications. Experiments on
conversational datasets demonstrate that our approach achieves state-of-the-art
(SOTA) results in matching queries with human preferences, outperforming top
proprietary models. Our approach captures subjective evaluation criteria and
makes routing decisions more transparent and flexible. Our model is available
at: https://huggingface.co/katanemo/Arch-Router-1.5B.