Dynamische Modelroutering en Cascadering voor Efficiënte LLM-inferentie: Een Overzicht

Samenvatting

De snelle groei van grote taalmodellen (LLM's) met uiteenlopende capaciteiten, kosten en toepassingsdomeinen heeft een kritieke behoefte gecreëerd aan intelligente modelselectie tijdens inferentie. Terwijl kleinere modellen volstaan voor routinematige vragen, vereisen complexe taken krachtigere modellen. Statische modelimplementatie houdt echter geen rekening met de complexiteit en het domein van inkomende queries, wat leidt tot suboptimale prestaties en hogere kosten. Dynamische routersystemen die adaptief modellen selecteren op basis van querykenmerken zijn naar voren gekomen als een oplossing voor deze uitdaging. Wij bieden een systematische analyse van state-of-the-art multi-LLM-routerings- en cascadingbenaderingen. In tegenstelling tot mixture-of-experts-architecturen, die routering binnen één model uitvoeren, bestuderen wij routering over meerdere onafhankelijk getrainde LLM's. Wij behandelen diverse routeringsparadigma's, waaronder querymoeilijkheidsgraad, menselijke voorkeuren, clustering, onzekerheidskwantificering, reinforcement learning, multimodaliteit en cascading. Voor elk paradigma analyseren wij representatieve methoden en onderzoeken wij belangrijke afwegingen. Naast een taxonomie introduceren wij een conceptueel kader dat routersystemen langs drie dimensies karakteriseert: wanneer beslissingen worden genomen, welke informatie wordt gebruikt en hoe ze worden berekend. Dit perspectief benadrukt dat praktische systemen vaak compositioneel zijn en meerdere paradigma's integreren onder operationele beperkingen. Onze analyse toont aan dat effectieve multi-LLM-routering het balanceren van concurrerende doelstellingen vereist. De keuze van de optimale routeringsstrategie hangt af van implementatie- en rekenbeperkingen. Goed ontworpen routersystemen kunnen zelfs de krachtigste individuele modellen overtreffen door gespecialiseerde capaciteiten strategisch over modellen heen te benutten, terwijl efficiëntiewinsten worden gemaximaliseerd. Tegelijkertijd blijven er open uitdagingen bestaan in de ontwikkeling van routeringsmechanismen die generaliseren over diverse architecturen, modaliteiten en toepassingen.

English

The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.

Dynamische Modelroutering en Cascadering voor Efficiënte LLM-inferentie: Een Overzicht

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Samenvatting

Support