Aprendendo a Rotear LLMs a partir de Feedback de Bandido: Uma Política, Muitos Compromissos

Resumo

O uso eficiente de grandes modelos de linguagem (LLMs) é crucial para implantação em escala: sem roteamento adaptativo, os sistemas ou pagam em excesso por modelos robustos ou arriscam um desempenho inferior com modelos mais fracos. Selecionar o LLM adequado para cada consulta é, fundamentalmente, um problema de decisão online: os modelos diferem em suas capacidades, os preços flutuam e os usuários valorizam precisão e custo de maneiras distintas. No entanto, a maioria dos roteadores é treinada offline com rótulos para todos os modelos candidatos, uma suposição que se quebra na implantação, onde apenas o resultado do modelo escolhido é observado. Nós preenchemos essa lacuna com o BaRP, uma abordagem de Roteamento com Preferências baseada em Feedback de Bandit, que treina sob a mesma restrição de feedback parcial da implantação, ao mesmo tempo que suporta inferência ajustável por preferências: os operadores podem ajustar a relação desempenho/custo durante o teste sem precisar retreinar. Enquadrado como um bandit contextual sobre características do prompt e um vetor de preferências do usuário, nosso método simula um cenário de feedback online durante o treinamento e adapta suas decisões de roteamento para cada novo prompt, em vez de depender de supervisão offline com informações completas. Experimentos abrangentes mostram que nosso método supera consistentemente roteadores offline robustos em pelo menos 12,46% e o maior LLM em pelo menos 2,45%, além de generalizar de forma robusta para tarefas não vistas.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Aprendendo a Rotear LLMs a partir de Feedback de Bandido: Uma Política, Muitos Compromissos

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

Resumo

Support