Lernen, LLMs basierend auf Bandit-Feedback zu routen: Eine Strategie, viele Kompromisse
Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs
October 8, 2025
papers.authors: Wang Wei, Tiankai Yang, Hongjie Chen, Yue Zhao, Franck Dernoncourt, Ryan A. Rossi, Hoda Eldardiry
cs.AI
papers.abstract
Die effiziente Nutzung großer Sprachmodelle (LLMs) ist entscheidend für den Einsatz im großen Maßstab: Ohne adaptive Routing-Systeme zahlen Systeme entweder zu viel für leistungsstarke Modelle oder riskieren eine schlechte Leistung durch schwächere Modelle. Die Auswahl des richtigen LLMs für jede Anfrage ist im Wesentlichen ein Online-Entscheidungsproblem: Modelle unterscheiden sich in ihren Stärken, Preise schwanken, und Nutzer bewerten Genauigkeit und Kosten unterschiedlich. Dennoch werden die meisten Router offline trainiert, wobei Labels für alle Kandidatenmodelle vorliegen – eine Annahme, die im Einsatz nicht haltbar ist, da dort nur das Ergebnis des gewählten Modells beobachtet wird. Wir schließen diese Lücke mit BaRP, einem Bandit-Feedback-Routing-Ansatz mit Präferenzen, der unter der gleichen Teil-Feedback-Einschränkung wie der Einsatz trainiert wird und dabei präferenzanpassbare Inferenz unterstützt: Betreiber können den Kompromiss zwischen Leistung und Kosten zur Testzeit einstellen, ohne das Modell neu trainieren zu müssen. Unser Ansatz, der als kontextuelles Bandit-Problem über Prompt-Merkmale und einen Nutzerpräferenzvektor formuliert ist, simuliert während des Trainings eine Online-Feedback-Umgebung und passt seine Routing-Entscheidungen an jeden neuen Prompt an, anstatt sich auf vollständige Offline-Aufsicht zu verlassen. Umfassende Experimente zeigen, dass unsere Methode durchweg starke Offline-Router um mindestens 12,46 % und das größte LLM um mindestens 2,45 % übertrifft und robust auf unbekannte Aufgaben verallgemeinert.
English
Efficient use of large language models (LLMs) is critical for deployment at
scale: without adaptive routing, systems either overpay for strong models or
risk poor performance from weaker ones. Selecting the right LLM for each query
is fundamentally an online decision problem: models differ in strengths, prices
fluctuate, and users value accuracy and cost differently. Yet most routers are
trained offline with labels for all candidate models, an assumption that breaks
in deployment, where only the outcome of the chosen model is observed. We
bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach
that trains under the same partial-feedback restriction as deployment, while
supporting preference-tunable inference: operators can dial the
performance/cost trade-off at test time without retraining. Framed as a
contextual bandit over prompt features and a user preference vector, our method
simulates an online feedback setting during training and adapts its routing
decisions to each new prompt, rather than depending on full-information offline
supervision. Comprehensive experiments show that our method consistently
outperforms strong offline routers by at least 12.46% and the largest LLM by at
least 2.45%, and generalizes robustly for unseen tasks.