IR3DE: Een Lineaire Router voor Grote Taalmodellen

Samenvatting

Fundamentele Grote Taalmodellen (LLM's) tonen vaardigheid in een breed scala aan algemene taken en behalen opmerkelijke resultaten in diverse gespecialiseerde taken via domeinexpert-LLM's. Met de steeds groeiende lijst van beschikbare LLM's worden inferentierouters voorgesteld om voor elke prompt het meest geschikte LLM te selecteren. Bestaande routeringsmethoden optimaliseren echter ofwel de kosten over zwakke tot sterke generalistische LLM's, of vereisen aanzienlijke training om domeinexpertroutering te ondersteunen. In dit artikel stellen we IR3DE voor, een op Ridge-regressie gebaseerde router voor domeinexperts die goedkope en snelle routeringsbeslissingen voor elke prompt biedt. We evalueren IR3DE in twee causale taalmodellerings (CLM)-settings waarin de taken uit volgende-tokenvoorspelling voor alle domeinen bestaan, en één redeneersetting waarin elk domein zijn eigen specifieke redeneertaak heeft. Ondanks het feit dat het een lineaire router is, presteert IR3DE vergelijkbaar met de andere baselines in beide CLM-settings en overtreft het deze in de redeneersetting, met een genormaliseerde prestatie van 98,4%. Bovendien maakt IR3DE het mogelijk om nieuwe domeinexperts toe te voegen of te verwijderen zonder dat de router opnieuw van de grond af aan getraind hoeft te worden, wat een dynamische set van LLM's mogelijk maakt met minimale verstoring van de router zelf. Onze code is beschikbaar op: github.com/gensyn-ai/IR3DE.

English

Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.