Масштабируемая маршрутизация промптов через детектирование тонких латентных задач
Scalable Prompt Routing via Fine-Grained Latent Task Discovery
March 19, 2026
Авторы: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis
cs.AI
Аннотация
Динамическая маршрутизация промптов позволяет выбирать наиболее подходящую большую языковую модель из пула кандидатов для каждого запроса, оптимизируя производительность при управлении затратами. По мере масштабирования пулов моделей до десятков передовых систем с минимальным разрывом в качестве существующие подходы сталкиваются со значительными трудностями: ручные таксономии задач не способны отразить тонкие различия в возможностях, а монолитные маршрутизаторы не справляются с дифференциацией subtle различий для разнородных задач. Мы предлагаем двухуровневую архитектуру маршрутизации, которая преодолевает эти ограничения за счет автоматического обнаружения детализированных типов задач и оценки качества с учетом контекста задачи. На первом этапе используется кластеризация на основе графов для выявления латентных типов задач и обучения классификатора для распределения промптов по обнаруженным категориям. Второй этап задействует архитектуру смеси экспертов с специализированными головками прогнозирования для получения точных оценок качества. На этапе вывода мы агрегируем прогнозы обоих уровней, достигая баланса между стабильностью на уровне задач и адаптивностью к конкретным промптам. Тестирование на 10 бенчмарках с 11 передовыми моделями показало, что наш метод стабильно превосходит существующие базовые подходы и превышает показатели сильнейшей индивидуальной модели, обеспечивая при этом менее половины ее стоимости.
English
Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.