ChatPaper.aiChatPaper

세부 잠재 작업 탐색을 통한 확장 가능한 프롬프트 라우팅

Scalable Prompt Routing via Fine-Grained Latent Task Discovery

March 19, 2026
저자: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis
cs.AI

초록

프롬프트 라우팅은 후보 모델 풀에서 각 쿼리에 가장 적합한 대규모 언어 모델을 동적으로 선택하여 비용을 관리하면서 성능을 최적화합니다. 모델 풀이 성능 격차가 미세한 수십 개의 최첨단 모델로 확장됨에 따라, 기존 접근법은 중대한 과제에 직면하고 있습니다: 수동으로 정의된 작업 분류 체계는 세분화된 능력 차이를 포착하지 못하며, 단일화된 라우터는 다양한 작업 간 미세한 차이를 구분하기 어렵습니다. 본 연구에서는 자동화된 세분화 작업 발견과 작업 인식 품질 추정을 통해 이러한 한계를 해결하는 2단계 라우팅 아키텍처를 제안합니다. 첫 번째 단계에서는 그래프 기반 클러스터링을 통해 잠재적 작업 유형을 발견하고 분류기를 훈련시켜 프롬프트를 발견된 작업에 할당합니다. 두 번째 단계에서는 작업별 예측 헤드를 갖는 전문가 혼합 아키텍처를 사용하여 특화된 품질 추정을 수행합니다. 추론 시 두 단계의 예측을 종합하여 작업 수준 안정성과 프롬프트별 적응성을 균형 있게 조정합니다. 11개의 최첨단 모델과 10개 벤치마크에서 평가한 결과, 우리의 방법은 기존 베이스라인을 지속적으로 능가하며 가장 강력한 단일 모델을 넘어서는 성능을 보였고, 그 비용은 절반 미만으로 발생했습니다.
English
Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.
PDF52March 25, 2026