ChatPaper.aiChatPaper

バンディットフィードバックからLLMのルーティングを学習する:単一ポリシー、多様なトレードオフ

Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

October 8, 2025
著者: Wang Wei, Tiankai Yang, Hongjie Chen, Yue Zhao, Franck Dernoncourt, Ryan A. Rossi, Hoda Eldardiry
cs.AI

要旨

大規模言語モデル(LLM)の効率的な利用は、大規模展開において極めて重要です:適応的なルーティングがない場合、システムは強力なモデルに対して過剰なコストを支払うか、弱いモデルによる低いパフォーマンスをリスクにさらすことになります。各クエリに対して適切なLLMを選択することは、本質的にオンライン意思決定問題です:モデルは強みが異なり、価格は変動し、ユーザーは精度とコストを異なる形で重視します。しかし、ほとんどのルーターは、すべての候補モデルに対するラベルを用いてオフラインで訓練されており、この仮定は展開時に崩れます。展開時には、選択されたモデルの結果のみが観測されるからです。我々はこのギャップを埋めるために、BaRP(Bandit-feedback Routing with Preferences)を提案します。これは、展開時と同じ部分フィードバック制約の下で訓練を行いながら、推論時にパフォーマンスとコストのトレードオフを調整可能な推論をサポートします。プロンプトの特徴とユーザーの選好ベクトルをコンテキストとした文脈的バンディットとしてフレーム化された我々の手法は、訓練中にオンラインフィードバック設定をシミュレートし、各新しいプロンプトに対してルーティング決定を適応させます。これにより、完全情報のオフライン監視に依存する必要がなくなります。包括的な実験により、我々の手法は強力なオフラインルーターを少なくとも12.46%、最大のLLMを少なくとも2.45%上回り、未見のタスクに対しても堅牢に汎化することが示されました。
English
Efficient use of large language models (LLMs) is critical for deployment at scale: without adaptive routing, systems either overpay for strong models or risk poor performance from weaker ones. Selecting the right LLM for each query is fundamentally an online decision problem: models differ in strengths, prices fluctuate, and users value accuracy and cost differently. Yet most routers are trained offline with labels for all candidate models, an assumption that breaks in deployment, where only the outcome of the chosen model is observed. We bridge this gap with BaRP, a Bandit-feedback Routing with Preferences approach that trains under the same partial-feedback restriction as deployment, while supporting preference-tunable inference: operators can dial the performance/cost trade-off at test time without retraining. Framed as a contextual bandit over prompt features and a user preference vector, our method simulates an online feedback setting during training and adapts its routing decisions to each new prompt, rather than depending on full-information offline supervision. Comprehensive experiments show that our method consistently outperforms strong offline routers by at least 12.46% and the largest LLM by at least 2.45%, and generalizes robustly for unseen tasks.
PDF32October 10, 2025