Apprentissage du routage des LLMs à partir de retours bandit : une politique, de nombreux compromis
Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs
October 8, 2025
papers.authors: Wang Wei, Tiankai Yang, Hongjie Chen, Yue Zhao, Franck Dernoncourt, Ryan A. Rossi, Hoda Eldardiry
cs.AI
papers.abstract
L'utilisation efficace des grands modèles de langage (LLM) est cruciale pour un déploiement à grande échelle : sans routage adaptatif, les systèmes paient trop cher pour des modèles puissants ou risquent une performance médiocre avec des modèles plus faibles. Sélectionner le bon LLM pour chaque requête est fondamentalement un problème de décision en ligne : les modèles diffèrent par leurs forces, les prix fluctuent, et les utilisateurs valorisent différemment la précision et le coût. Pourtant, la plupart des routeurs sont entraînés hors ligne avec des étiquettes pour tous les modèles candidats, une hypothèse qui ne tient pas lors du déploiement, où seul le résultat du modèle choisi est observé. Nous comblons cet écart avec BaRP, une approche de Routage avec Préférences basée sur le feedback de bandit, qui s'entraîne sous la même restriction de feedback partiel que le déploiement, tout en supportant une inférence ajustable par préférence : les opérateurs peuvent ajuster le compromis performance/coût au moment du test sans réentraînement. Cadré comme un bandit contextuel sur les caractéristiques des prompts et un vecteur de préférences utilisateur, notre méthode simule un environnement de feedback en ligne pendant l'entraînement et adapte ses décisions de routage à chaque nouveau prompt, plutôt que de dépendre d'une supervision hors ligne en information complète. Des expériences approfondies montrent que notre méthode surpasse systématiquement les routeurs hors ligne les plus performants d'au moins 12,46 % et le plus grand LLM d'au moins 2,45 %, et généralise de manière robuste pour des tâches inédites.
English
Efficient use of large language models (LLMs) is critical for deployment at
scale: without adaptive routing, systems either overpay for strong models or
risk poor performance from weaker ones. Selecting the right LLM for each query
is fundamentally an online decision problem: models differ in strengths, prices
fluctuate, and users value accuracy and cost differently. Yet most routers are
trained offline with labels for all candidate models, an assumption that breaks
in deployment, where only the outcome of the chosen model is observed. We
bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach
that trains under the same partial-feedback restriction as deployment, while
supporting preference-tunable inference: operators can dial the
performance/cost trade-off at test time without retraining. Framed as a
contextual bandit over prompt features and a user preference vector, our method
simulates an online feedback setting during training and adapts its routing
decisions to each new prompt, rather than depending on full-information offline
supervision. Comprehensive experiments show that our method consistently
outperforms strong offline routers by at least 12.46% and the largest LLM by at
least 2.45%, and generalizes robustly for unseen tasks.