ChatPaper.aiChatPaper

Arch-Router: Allineamento del Routing di LLM con le Preferenze Umane

Arch-Router: Aligning LLM Routing with Human Preferences

June 19, 2025
Autori: Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen
cs.AI

Abstract

Con la rapida proliferazione di modelli linguistici di grandi dimensioni (LLM) -- ciascuno ottimizzato per punti di forza, stile o profili di latenza/costo diversi -- il routing è diventato una tecnica essenziale per operazionalizzare l'uso di modelli diversi. Tuttavia, gli approcci esistenti al routing degli LLM presentano due limitazioni chiave: valutano le prestazioni utilizzando benchmark che spesso non riescono a catturare le preferenze umane guidate da criteri di valutazione soggettivi e tipicamente selezionano da un pool limitato di modelli. In questo lavoro, proponiamo un framework di routing allineato alle preferenze che guida la selezione del modello abbinando le query a domini definiti dall'utente (ad esempio, viaggi) o tipi di azione (ad esempio, modifica delle immagini) -- offrendo un meccanismo pratico per codificare le preferenze nelle decisioni di routing. Nello specifico, introduciamo Arch-Router, un modello compatto da 1,5 miliardi di parametri che impara a mappare le query alle preferenze di dominio-azione per le decisioni di routing dei modelli. Il nostro approccio supporta anche l'aggiunta senza soluzione di continuità di nuovi modelli per il routing senza richiedere riaddestramento o modifiche architetturali. Esperimenti su dataset conversazionali dimostrano che il nostro approccio raggiunge risultati all'avanguardia (SOTA) nell'abbinamento delle query con le preferenze umane, superando i migliori modelli proprietari. Il nostro approccio cattura criteri di valutazione soggettivi e rende le decisioni di routing più trasparenti e flessibili. Il nostro modello è disponibile all'indirizzo: https://huggingface.co/katanemo/Arch-Router-1.5B.
English
With the rapid proliferation of large language models (LLMs) -- each optimized for different strengths, style, or latency/cost profile -- routing has become an essential technique to operationalize the use of different models. However, existing LLM routing approaches are limited in two key ways: they evaluate performance using benchmarks that often fail to capture human preferences driven by subjective evaluation criteria, and they typically select from a limited pool of models. In this work, we propose a preference-aligned routing framework that guides model selection by matching queries to user-defined domains (e.g., travel) or action types (e.g., image editing) -- offering a practical mechanism to encode preferences in routing decisions. Specifically, we introduce Arch-Router, a compact 1.5B model that learns to map queries to domain-action preferences for model routing decisions. Our approach also supports seamlessly adding new models for routing without requiring retraining or architectural modifications. Experiments on conversational datasets demonstrate that our approach achieves state-of-the-art (SOTA) results in matching queries with human preferences, outperforming top proprietary models. Our approach captures subjective evaluation criteria and makes routing decisions more transparent and flexible. Our model is available at: https://huggingface.co/katanemo/Arch-Router-1.5B.
PDF82June 27, 2025