Roteamento Escalável de Prompts via Descoberta de Tarefas Latentes de Granularidade Fina

Resumo

O roteamento dinâmico de prompts seleciona automaticamente o modelo de linguagem mais adequado de um conjunto de candidatos para cada consulta, otimizando o desempenho enquanto gerencia custos. À medida que os conjuntos de modelos escalam para incluir dezenas de modelos de ponta com diferenças de desempenho mínimas, as abordagens existentes enfrentam desafios significativos: taxonomias de tarefas definidas manualmente não conseguem capturar distinções granulares de capacidade, enquanto roteadores monolíticos lutam para diferenciar diferenças sutis em tarefas diversas. Propomos uma arquitetura de roteamento em dois estágios que aborda essas limitações através da descoberta automatizada de tarefas granulares e da estimativa de qualidade consciente da tarefa. Nosso primeiro estágio emprega agrupamento baseado em grafos para descobrir tipos de tarefas latentes e treina um classificador para atribuir prompts às tarefas descobertas. O segundo estágio usa uma arquitetura de mistura de especialistas com cabeças de predição específicas por tarefa para estimativas de qualidade especializadas. Na inferência, agregamos as previsões de ambos os estágios para equilibrar a estabilidade a nível de tarefa com a adaptabilidade específica do prompt. Avaliado em 10 benchmarks com 11 modelos de ponta, nosso método supera consistentemente as linhas de base existentes e ultrapassa o modelo individual mais forte enquanto incorre em menos da metade do seu custo.

English

Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.

Roteamento Escalável de Prompts via Descoberta de Tarefas Latentes de Granularidade Fina

Scalable Prompt Routing via Fine-Grained Latent Task Discovery

Resumo

Support