Обучение маршрутизации языковых моделей на основе бандитской обратной связи: одна политика, множество компромиссов

Аннотация

Эффективное использование больших языковых моделей (LLM) имеет решающее значение для масштабируемого развертывания: без адаптивной маршрутизации системы либо переплачивают за мощные модели, либо рискуют получить низкую производительность от более слабых. Выбор подходящей LLM для каждого запроса по своей сути является задачей принятия решений в режиме онлайн: модели различаются по своим сильным сторонам, цены колеблются, а пользователи по-разному оценивают точность и стоимость. Однако большинство маршрутизаторов обучаются оффлайн с метками для всех кандидатных моделей, что не соответствует условиям развертывания, где наблюдается только результат выбранной модели. Мы устраняем этот разрыв с помощью BaRP — подхода к маршрутизации с предпочтениями на основе обратной связи в стиле бандита, который обучается в условиях тех же ограничений по частичной обратной связи, что и при развертывании, при этом поддерживая настраиваемый вывод с учетом предпочтений: операторы могут регулировать компромисс между производительностью и стоимостью во время тестирования без необходимости повторного обучения. Сформулированный как контекстный бандит на основе характеристик промптов и вектора предпочтений пользователя, наш метод моделирует условия онлайн-обратной связи во время обучения и адаптирует решения по маршрутизации для каждого нового промпта, вместо того чтобы полагаться на полную информацию из оффлайн-обучения. Комплексные эксперименты показывают, что наш метод стабильно превосходит сильные оффлайн-маршрутизаторы как минимум на 12,46%, а самую крупную LLM — как минимум на 2,45%, и демонстрирует устойчивую обобщаемость для новых задач.

English

Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.

Обучение маршрутизации языковых моделей на основе бандитской обратной связи: одна политика, множество компромиссов

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

Аннотация

Support