Apprentissage du routage des LLMs à partir de retours bandit : une politique, de nombreux compromis

papers.abstract

L'utilisation efficace des grands modèles de langage (LLM) est cruciale pour un déploiement à grande échelle : sans routage adaptatif, les systèmes paient trop cher pour des modèles puissants ou risquent une performance médiocre avec des modèles plus faibles. Sélectionner le bon LLM pour chaque requête est fondamentalement un problème de décision en ligne : les modèles diffèrent par leurs forces, les prix fluctuent, et les utilisateurs valorisent différemment la précision et le coût. Pourtant, la plupart des routeurs sont entraînés hors ligne avec des étiquettes pour tous les modèles candidats, une hypothèse qui ne tient pas lors du déploiement, où seul le résultat du modèle choisi est observé. Nous comblons cet écart avec BaRP, une approche de Routage avec Préférences basée sur le feedback de bandit, qui s'entraîne sous la même restriction de feedback partiel que le déploiement, tout en supportant une inférence ajustable par préférence : les opérateurs peuvent ajuster le compromis performance/coût au moment du test sans réentraînement. Cadré comme un bandit contextuel sur les caractéristiques des prompts et un vecteur de préférences utilisateur, notre méthode simule un environnement de feedback en ligne pendant l'entraînement et adapte ses décisions de routage à chaque nouveau prompt, plutôt que de dépendre d'une supervision hors ligne en information complète. Des expériences approfondies montrent que notre méthode surpasse systématiquement les routeurs hors ligne les plus performants d'au moins 12,46 % et le plus grand LLM d'au moins 2,45 %, et généralise de manière robuste pour des tâches inédites.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Apprentissage du routage des LLMs à partir de retours bandit : une politique, de nombreux compromis

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

papers.abstract

Support