Schaalbare Promptroutering via Fijnmazige Ontdekking van Latente Taken
Scalable Prompt Routing via Fine-Grained Latent Task Discovery
March 19, 2026
Auteurs: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis
cs.AI
Samenvatting
Prompt routing selecteert dynamisch het meest geschikte grote taalmodel uit een kandidaatpool voor elke query, waarbij prestaties worden geoptimaliseerd en kosten worden beheerd. Naarmate modelpools uitbreiden naar tientallen frontier-modellen met minimale prestatieverschillen, kampen bestaande aanpakken met aanzienlijke uitdagingen: handmatig gedefinieerde taakclassificaties kunnen fijnmazige onderscheiden in capaciteiten niet vastleggen, terwijl monolitische routers moeite hebben met het differentiëren van subtiele verschillen bij diverse taken. Wij stellen een routeringsarchitectuur in twee fasen voor die deze beperkingen aanpakt door geautomatiseerde, fijnmazige taakdetectie en taakbewuste kwaliteitsschatting. Onze eerste fase gebruikt op grafieken gebaseerde clustering om latente taaktypen te ontdekken en traint een classifier om prompts aan ontdekte taken toe te wijzen. De tweede fase gebruikt een mixture-of-experts-architectuur met taakspecifieke voorspellingsmodules voor gespecialiseerde kwaliteitsschattingen. Tijdens inferentie aggregeren we voorspellingen van beide fasen om taakniveau-stabiliteit te balanceren met promptspecifieke aanpasbaarheid. Evaluatie op 10 benchmarks met 11 frontier-modellen toont aan dat onze methode consistent beter presteert dan bestaande baseline-methoden en het sterkste individuele model overtreft, tegen minder dan de helft van de kosten.
English
Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.