IR3DE: Um Roteador Linear para Modelos de Linguagem de Grande Porte

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) Fundamentais demonstram proficiência em uma ampla gama de tarefas gerais e alcançam resultados notáveis em diversas tarefas especializadas por meio de LLMs especialistas em domínio. Com a lista cada vez maior de LLMs disponíveis, roteadores de inferência estão sendo propostos para selecionar o LLM mais adequado para cada prompt. No entanto, os métodos de roteamento existentes ou otimizam o custo entre LLMs generalistas de fraco a forte, ou exigem treinamento substancial para suportar roteamento especializado em domínio. Neste artigo, propomos o IR3DE, um Roteador Baseado em Regressão Ridge para Especialistas em Domínio, que fornece decisões de roteamento rápidas e de baixo custo para cada prompt. Avaliamos o IR3DE em duas configurações de Modelagem de Linguagem Causal (CLM), onde as tarefas são predição do próximo token para todos os domínios, e em uma configuração de raciocínio, onde cada domínio possui sua própria tarefa de raciocínio distinta. Apesar de ser um roteador linear, o IR3DE alcança desempenho comparável aos outros métodos de referência em ambas as configurações de CLM, superando-os na configuração de raciocínio, com um desempenho normalizado de 98,4%. Além disso, o IR3DE permite a adição ou remoção de novos especialistas em domínio sem exigir que o roteador seja retreinado do zero, possibilitando que um conjunto dinâmico de LLMs seja servido com o mínimo de interrupção para o próprio roteador. Nosso código está disponível em: github.com/gensyn-ai/IR3DE.

English

Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.