Aprendizaje de Enrutamiento de LLMs a partir de Retroalimentación de Bandido: Una Política, Múltiples Compromisos

Resumen

El uso eficiente de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para su implementación a gran escala: sin un enrutamiento adaptativo, los sistemas o bien pagan en exceso por modelos potentes o arriesgan un rendimiento deficiente con modelos más débiles. Seleccionar el LLM adecuado para cada consulta es fundamentalmente un problema de decisión en línea: los modelos difieren en sus fortalezas, los precios fluctúan y los usuarios valoran la precisión y el costo de manera diferente. Sin embargo, la mayoría de los enrutadores se entrenan fuera de línea con etiquetas para todos los modelos candidatos, una suposición que se rompe en la implementación, donde solo se observa el resultado del modelo elegido. Cerramos esta brecha con BaRP, un enfoque de Enrutamiento con Retroalimentación de Bandido y Preferencias que se entrena bajo la misma restricción de retroalimentación parcial que la implementación, mientras admite inferencia ajustable por preferencias: los operadores pueden ajustar la compensación entre rendimiento y costo en tiempo de prueba sin necesidad de reentrenar. Enmarcado como un bandido contextual sobre características de la instrucción y un vector de preferencias del usuario, nuestro método simula un entorno de retroalimentación en línea durante el entrenamiento y adapta sus decisiones de enrutamiento a cada nueva instrucción, en lugar de depender de una supervisión fuera de línea con información completa. Experimentos exhaustivos muestran que nuestro método supera consistentemente a los enrutadores fuera de línea más robustos en al menos un 12.46% y al LLM más grande en al menos un 2.45%, y generaliza de manera robusta para tareas no vistas.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Aprendizaje de Enrutamiento de LLMs a partir de Retroalimentación de Bandido: Una Política, Múltiples Compromisos

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

Resumen

Support