Arch-Router: Ausrichtung des LLM-Routings an menschlichen Präferenzen
Arch-Router: Aligning LLM Routing with Human Preferences
June 19, 2025
Autoren: Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen
cs.AI
Zusammenfassung
Mit der rasanten Verbreitung großer Sprachmodelle (LLMs) – die jeweils für unterschiedliche Stärken, Stile oder Latenz-/Kostenprofile optimiert sind – ist das Routing zu einer wesentlichen Technik geworden, um den Einsatz verschiedener Modelle zu operationalisieren. Bestehende Ansätze für das Routing von LLMs sind jedoch in zwei zentralen Punkten eingeschränkt: Sie bewerten die Leistung anhand von Benchmarks, die oft die menschlichen Präferenzen, die durch subjektive Bewertungskriterien getrieben werden, nicht erfassen, und sie wählen typischerweise aus einem begrenzten Pool von Modellen aus. In dieser Arbeit schlagen wir ein präferenzorientiertes Routing-Framework vor, das die Modellauswahl leitet, indem Anfragen benutzerdefinierten Domänen (z. B. Reisen) oder Aktionstypen (z. B. Bildbearbeitung) zugeordnet werden – und bietet so einen praktischen Mechanismus, um Präferenzen in Routing-Entscheidungen zu kodieren. Konkret führen wir Arch-Router ein, ein kompaktes 1,5B-Modell, das lernt, Anfragen auf Domänen-Aktions-Präferenzen für Routing-Entscheidungen abzubilden. Unser Ansatz unterstützt auch das nahtlose Hinzufügen neuer Modelle für das Routing, ohne dass eine Neuanpassung oder architektonische Änderungen erforderlich sind. Experimente mit Konversationsdatensätzen zeigen, dass unser Ansatz state-of-the-art (SOTA) Ergebnisse bei der Übereinstimmung von Anfragen mit menschlichen Präferenzen erzielt und dabei proprietäre Top-Modelle übertrifft. Unser Ansatz erfasst subjektive Bewertungskriterien und macht Routing-Entscheidungen transparenter und flexibler. Unser Modell ist verfügbar unter: https://huggingface.co/katanemo/Arch-Router-1.5B.
English
With the rapid proliferation of large language models (LLMs) -- each
optimized for different strengths, style, or latency/cost profile -- routing
has become an essential technique to operationalize the use of different
models. However, existing LLM routing approaches are limited in two key ways:
they evaluate performance using benchmarks that often fail to capture human
preferences driven by subjective evaluation criteria, and they typically select
from a limited pool of models. In this work, we propose a preference-aligned
routing framework that guides model selection by matching queries to
user-defined domains (e.g., travel) or action types (e.g., image editing) --
offering a practical mechanism to encode preferences in routing decisions.
Specifically, we introduce Arch-Router, a compact 1.5B model that
learns to map queries to domain-action preferences for model routing decisions.
Our approach also supports seamlessly adding new models for routing without
requiring retraining or architectural modifications. Experiments on
conversational datasets demonstrate that our approach achieves state-of-the-art
(SOTA) results in matching queries with human preferences, outperforming top
proprietary models. Our approach captures subjective evaluation criteria and
makes routing decisions more transparent and flexible. Our model is available
at: https://huggingface.co/katanemo/Arch-Router-1.5B.