ChatPaper.aiChatPaper

IR3DE: 대규모 언어 모델을 위한 선형 라우터

IR3DE: A Linear Router for Large Language Models

June 4, 2026
저자: Eros Fanì, Oğuzhan Ersoy
cs.AI

초록

기초 대규모 언어 모델(LLM)은 광범위한 일반 작업에서 능숙함을 보여주며, 도메인 전문가 LLM을 통해 다양한 특수 작업에서도 뛰어난 결과를 달성합니다. 사용 가능한 LLM의 목록이 계속 증가함에 따라 각 프롬프트에 가장 적합한 LLM을 선택하는 추론 라우터가 제안되고 있습니다. 그러나 기존 라우팅 방법은 약한 수준부터 강한 수준까지의 일반주의 LLM 간 비용을 최적화하거나, 도메인 전문성 라우팅을 지원하기 위해 상당한 학습을 필요로 합니다. 본 논문에서는 각 프롬프트에 대해 저렴하고 빠른 라우팅 결정을 제공하는 도메인 전문가용 릿지 회귀 기반 라우터인 IR3DE를 제안합니다. 우리는 모든 도메인에서 다음 토큰 예측을 수행하는 두 가지 인과 언어 모델링(CLM) 설정과, 각 도메인이 고유한 추론 작업을 갖는 하나의 추론 설정에서 IR3DE를 평가합니다. 선형 라우터임에도 불구하고 IR3DE는 두 CLM 설정에서 다른 기준 모델과 비슷한 성능을 달성하고, 추론 설정에서는 정규화 성능 98.4%로 이를 능가합니다. 또한 IR3DE는 새로운 도메인 전문가를 추가하거나 제거할 때 라우터를 처음부터 다시 학습할 필요 없이, 최소한의 중단으로 동적 LLM 집합을 서비스할 수 있도록 합니다. 코드는 다음에서 확인할 수 있습니다: github.com/gensyn-ai/IR3DE.
English
Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.