IR3DE: Линейный маршрутизатор для больших языковых моделей

Аннотация

Фундаментальные большие языковые модели (LLM) демонстрируют эффективность в широком спектре общих задач и достигают выдающихся результатов в различных специализированных задачах с помощью доменно-экспертных LLM. С постоянно растущим списком доступных LLM предлагаются маршрутизаторы вывода для выбора наиболее подходящей LLM для каждого запроса. Однако существующие методы маршрутизации либо оптимизируют стоимость между слабыми и сильными универсальными LLM, либо требуют значительного обучения для поддержки маршрутизации по доменной экспертизе. В данной работе мы предлагаем IR3DE — маршрутизатор на основе гребневой регрессии для доменных экспертов, который обеспечивает дешевые и быстрые решения по маршрутизации для каждого запроса. Мы оцениваем IR3DE в двух сценариях каузального языкового моделирования (CLM), где задачи — предсказание следующего токена для всех доменов, и в одном сценарии рассуждения, где каждый домен имеет свою собственную задачу рассуждения. Несмотря на то, что это линейный маршрутизатор, IR3DE достигает производительности, сопоставимой с другими базовыми методами в обоих сценариях CLM, и превосходит их в сценарии рассуждения, с нормализованной производительностью 98,4%. Более того, IR3DE позволяет добавлять или удалять новых доменных экспертов без необходимости переобучать маршрутизатор с нуля, что позволяет обслуживать динамический набор LLM с минимальными нарушениями работы самого маршрутизатора. Наш код доступен по адресу: github.com/gensyn-ai/IR3DE.

English

Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.