IR3DE: Un Enrutador Lineal para Grandes Modelos de Lenguaje

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) fundacionales demuestran competencia en una amplia gama de tareas generales y logran resultados notables en diversas tareas especializadas a través de LLMs expertos en dominio. Con la lista cada vez mayor de LLMs disponibles, se están proponiendo enrutadores de inferencia para seleccionar el LLM más adecuado para cada consulta. Sin embargo, los métodos de enrutamiento existentes optimizan el costo entre LLMs generalistas débiles y fuertes, o requieren un entrenamiento sustancial para respaldar el enrutamiento por dominio experto. En este artículo, proponemos IR3DE, un enrutador basado en regresión de Ridge para expertos en dominio que proporciona decisiones de enrutamiento rápidas y económicas para cada consulta. Evaluamos IR3DE en dos configuraciones de Modelado de Lenguaje Causal (CLM), donde las tareas son predicción del siguiente token para todos los dominios, y una configuración de razonamiento donde cada dominio tiene su propia tarea de razonamiento distintiva. A pesar de ser un enrutador lineal, IR3DE logra un rendimiento comparable al de otras líneas base en ambas configuraciones CLM, y las supera en la configuración de razonamiento, con un rendimiento normalizado del 98.4%. Además, IR3DE permite agregar o eliminar nuevos expertos en dominio sin necesidad de reentrenar el enrutador desde cero, lo que permite servir un conjunto dinámico de LLMs con una interrupción mínima para el propio enrutador. Nuestro código está disponible en: github.com/gensyn-ai/IR3DE.

English

Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.