Arch-Router : Alignement du routage des LLM avec les préférences humaines
Arch-Router: Aligning LLM Routing with Human Preferences
June 19, 2025
Auteurs: Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen
cs.AI
Résumé
Avec la prolifération rapide des grands modèles de langage (LLMs) — chacun optimisé pour des forces, des styles ou des profils de latence/coût différents — le routage est devenu une technique essentielle pour opérationnaliser l'utilisation de différents modèles. Cependant, les approches de routage existantes pour les LLMs présentent deux limites majeures : elles évaluent les performances à l'aide de benchmarks qui échouent souvent à capturer les préférences humaines guidées par des critères d'évaluation subjectifs, et elles sélectionnent généralement parmi un pool restreint de modèles. Dans ce travail, nous proposons un cadre de routage aligné sur les préférences qui guide la sélection des modèles en associant les requêtes à des domaines définis par l'utilisateur (par exemple, voyage) ou à des types d'actions (par exemple, édition d'images) — offrant ainsi un mécanisme pratique pour encoder les préférences dans les décisions de routage. Plus précisément, nous introduisons Arch-Router, un modèle compact de 1,5 milliard de paramètres qui apprend à mapper les requêtes aux préférences de domaine-action pour les décisions de routage des modèles. Notre approche permet également d'ajouter de nouveaux modèles pour le routage de manière transparente, sans nécessiter de réentraînement ou de modifications architecturales. Les expériences sur des ensembles de données conversationnels démontrent que notre approche atteint des résultats de pointe (SOTA) en matière de correspondance des requêtes avec les préférences humaines, surpassant les meilleurs modèles propriétaires. Notre approche capture les critères d'évaluation subjectifs et rend les décisions de routage plus transparentes et flexibles. Notre modèle est disponible à l'adresse : https://huggingface.co/katanemo/Arch-Router-1.5B.
English
With the rapid proliferation of large language models (LLMs) -- each
optimized for different strengths, style, or latency/cost profile -- routing
has become an essential technique to operationalize the use of different
models. However, existing LLM routing approaches are limited in two key ways:
they evaluate performance using benchmarks that often fail to capture human
preferences driven by subjective evaluation criteria, and they typically select
from a limited pool of models. In this work, we propose a preference-aligned
routing framework that guides model selection by matching queries to
user-defined domains (e.g., travel) or action types (e.g., image editing) --
offering a practical mechanism to encode preferences in routing decisions.
Specifically, we introduce Arch-Router, a compact 1.5B model that
learns to map queries to domain-action preferences for model routing decisions.
Our approach also supports seamlessly adding new models for routing without
requiring retraining or architectural modifications. Experiments on
conversational datasets demonstrate that our approach achieves state-of-the-art
(SOTA) results in matching queries with human preferences, outperforming top
proprietary models. Our approach captures subjective evaluation criteria and
makes routing decisions more transparent and flexible. Our model is available
at: https://huggingface.co/katanemo/Arch-Router-1.5B.