Skalierbare Prompt-Routing durch feinkörnige latente Aufgabenentdeckung

Zusammenfassung

Prompt-Routing wählt für jede Anfrage dynamisch das am besten geeignete große Sprachmodell aus einem Pool von Kandidaten aus, um die Leistung zu optimieren und gleichzeitig die Kosten zu steuern. Wenn Modellpools auf Dutzende von Spitzenmodellen mit geringen Leistungsunterschieden anwachsen, stehen bestehende Ansätze vor erheblichen Herausforderungen: manuell definierte Aufgaben-Taxonomien können feinkörnige Fähigkeitsunterschiede nicht erfassen, während monolithische Router mit der Differenzierung subtiler Unterschiede über diverse Aufgaben hinweg kämpfen. Wir schlagen eine zweistufige Routing-Architektur vor, die diese Einschränkungen durch automatisierte, feinkörnige Aufgabenerkennung und aufgabenbewusste Qualitätsschätzung adressiert. Unsere erste Stufe nutzt graphenbasierte Clustering-Verfahren, um latente Aufgabentypen zu entdecken, und trainiert einen Klassifikator, um Prompts den erkannten Aufgaben zuzuordnen. Die zweite Stufe verwendet eine Mixture-of-Experts-Architektur mit aufgabenspezifischen Vorhersage-Köpfen für spezialisierte Qualitätsschätzungen. Zur Inferenzzeit aggregieren wir Vorhersagen aus beiden Stufen, um aufgabenbezogene Stabilität mit promptspezifischer Anpassungsfähigkeit in Einklang zu bringen. Ausgewertet an 10 Benchmarks mit 11 Spitzenmodellen übertrifft unsere Methode konsistent bestehende Baseline-Ansätze und überbietet das leistungsstärkste Einzelmodell, bei weniger als der Hälfte seiner Kosten.

English

Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.

Skalierbare Prompt-Routing durch feinkörnige latente Aufgabenentdeckung

Scalable Prompt Routing via Fine-Grained Latent Task Discovery

Zusammenfassung

Support