Lernen, LLMs basierend auf Bandit-Feedback zu routen: Eine Strategie, viele Kompromisse

papers.abstract

Die effiziente Nutzung großer Sprachmodelle (LLMs) ist entscheidend für den Einsatz im großen Maßstab: Ohne adaptive Routing-Systeme zahlen Systeme entweder zu viel für leistungsstarke Modelle oder riskieren eine schlechte Leistung durch schwächere Modelle. Die Auswahl des richtigen LLMs für jede Anfrage ist im Wesentlichen ein Online-Entscheidungsproblem: Modelle unterscheiden sich in ihren Stärken, Preise schwanken, und Nutzer bewerten Genauigkeit und Kosten unterschiedlich. Dennoch werden die meisten Router offline trainiert, wobei Labels für alle Kandidatenmodelle vorliegen – eine Annahme, die im Einsatz nicht haltbar ist, da dort nur das Ergebnis des gewählten Modells beobachtet wird. Wir schließen diese Lücke mit BaRP, einem Bandit-Feedback-Routing-Ansatz mit Präferenzen, der unter der gleichen Teil-Feedback-Einschränkung wie der Einsatz trainiert wird und dabei präferenzanpassbare Inferenz unterstützt: Betreiber können den Kompromiss zwischen Leistung und Kosten zur Testzeit einstellen, ohne das Modell neu trainieren zu müssen. Unser Ansatz, der als kontextuelles Bandit-Problem über Prompt-Merkmale und einen Nutzerpräferenzvektor formuliert ist, simuliert während des Trainings eine Online-Feedback-Umgebung und passt seine Routing-Entscheidungen an jeden neuen Prompt an, anstatt sich auf vollständige Offline-Aufsicht zu verlassen. Umfassende Experimente zeigen, dass unsere Methode durchweg starke Offline-Router um mindestens 12,46 % und das größte LLM um mindestens 2,45 % übertrifft und robust auf unbekannte Aufgaben verallgemeinert.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Lernen, LLMs basierend auf Bandit-Feedback zu routen: Eine Strategie, viele Kompromisse

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

papers.abstract

Support