Leren om LLMs te routeren op basis van bandit-feedback: Eén beleid, vele afwegingen

Samenvatting

Efficiënt gebruik van grote taalmodellen (LLMs) is cruciaal voor implementatie op schaal: zonder adaptieve routering betalen systemen te veel voor sterke modellen of riskeren ze slechte prestaties van zwakkere modellen. Het selecteren van het juiste LLM voor elke query is in wezen een online beslissingsprobleem: modellen verschillen in sterktes, prijzen fluctueren, en gebruikers hechten verschillend veel waarde aan nauwkeurigheid en kosten. Toch worden de meeste routers offline getraind met labels voor alle kandidaat-modellen, een aanname die in de praktijk niet standhoudt, waar alleen het resultaat van het gekozen model wordt waargenomen. Wij overbruggen deze kloof met BaRP, een Bandit-feedback Routering met Voorkeuren aanpak die traint onder dezelfde beperkte feedbackcondities als in de praktijk, terwijl het voorkeurafstembare inferentie ondersteunt: operators kunnen de prestatie/kosten-afweging tijdens het testen aanpassen zonder opnieuw te trainen. Geformuleerd als een contextuele bandit over promptkenmerken en een gebruikersvoorkeursvector, simuleert onze methode een online feedbackomgeving tijdens de training en past de routeringsbeslissingen aan voor elke nieuwe prompt, in plaats van afhankelijk te zijn van volledige informatie offline supervisie. Uitgebreide experimenten tonen aan dat onze methode consistent sterke offline routers met minstens 12,46% overtreft en het grootste LLM met minstens 2,45%, en robuust generaliseert voor onbekende taken.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Leren om LLMs te routeren op basis van bandit-feedback: Eén beleid, vele afwegingen

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

Samenvatting

Support