Enrutamiento Escalable de Prompts mediante Descubrimiento de Tareas Latentes de Grano Fino
Scalable Prompt Routing via Fine-Grained Latent Task Discovery
March 19, 2026
Autores: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis
cs.AI
Resumen
El enrutamiento de consultas selecciona dinámicamente el modelo de lenguaje grande más apropiado de un conjunto de candidatos para cada consulta, optimizando el rendimiento mientras gestiona los costos. A medida que los conjuntos de modelos escalan para incluir docenas de modelos de vanguardia con diferencias de rendimiento mínimas, los enfoques existentes enfrentan desafíos significativos: las taxonomías de tareas definidas manualmente no pueden capturar distinciones de capacidades a nivel granular, mientras que los enrutadores monolíticos tienen dificultades para diferenciar variaciones sutiles en tareas diversas. Proponemos una arquitectura de enrutamiento en dos etapas que aborda estas limitaciones mediante la detección automática de tareas granulares y la estimación de calidad consciente del contexto de la tarea. Nuestra primera etapa emplea agrupamiento basado en grafos para descubrir tipos de tareas latentes y entrena un clasificador para asignar prompts a las tareas descubiertas. La segunda etapa utiliza una arquitectura de mezcla de expertos con cabezales de predicción específicos por tarea para estimaciones de calidad especializadas. Durante la inferencia, agregamos las predicciones de ambas etapas para equilibrar la estabilidad a nivel de tarea con la adaptabilidad específica por prompt. Evaluado en 10 benchmarks con 11 modelos de vanguardia, nuestro método supera consistentemente los baselines existentes y sobrepasa al modelo individual más fuerte, incurriendo en menos de la mitad de su costo.
English
Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.