Apprendimento del Routing per LLM tramite Feedback Bandit: Una Politica, Molti Compromessi

Abstract

L'uso efficiente di grandi modelli linguistici (LLM) è cruciale per il dispiegamento su larga scala: senza un routing adattivo, i sistemi o pagano in eccesso per modelli potenti o rischiano prestazioni scadenti da modelli più deboli. Selezionare il modello LLM giusto per ogni query è fondamentalmente un problema decisionale online: i modelli differiscono in termini di punti di forza, i prezzi fluttuano e gli utenti valutano in modo diverso accuratezza e costo. Tuttavia, la maggior parte dei router viene addestrata offline con etichette per tutti i modelli candidati, un presupposto che si infrange in fase di dispiegamento, dove si osserva solo l'esito del modello scelto. Colmiamo questa lacuna con BaRP, un approccio di Routing con Preferenze basato su feedback a bandit, che si addestra sotto la stessa restrizione di feedback parziale del dispiegamento, supportando al contempo un'inferenza regolabile in base alle preferenze: gli operatori possono regolare il compromesso prestazioni/costo in fase di test senza bisogno di riaddestramento. Inquadrato come un bandit contestuale su caratteristiche del prompt e un vettore di preferenze dell'utente, il nostro metodo simula un ambiente di feedback online durante l'addestramento e adatta le sue decisioni di routing a ogni nuovo prompt, piuttosto che dipendere da una supervisione offline a informazione completa. Esperimenti completi dimostrano che il nostro metodo supera costantemente i router offline più robusti di almeno il 12,46% e il più grande LLM di almeno il 2,45%, e generalizza in modo robusto per compiti non visti.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Apprendimento del Routing per LLM tramite Feedback Bandit: Una Politica, Molti Compromessi

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

Abstract

Support