Roteamento Dinâmico de Modelos e Cascateamento para Inferência Eficiente em LLMs: Uma Revisão

Resumo

O rápido crescimento de modelos de linguagem grandes (LLMs) com capacidades, custos e domínios diversificados criou uma necessidade crítica de seleção inteligente de modelos no momento da inferência. Embora modelos menores sejam suficientes para consultas rotineiras, tarefas complexas exigem modelos mais capazes. No entanto, a implantação estática de modelos não leva em conta a complexidade e o domínio das consultas recebidas, resultando em desempenho subótimo e custos aumentados. Sistemas de roteamento dinâmico que selecionam modelos de forma adaptativa com base nas características da consulta surgiram como uma solução para esse desafio. Apresentamos uma análise sistemática das abordagens state-of-the-art de roteamento e cascateamento multi-LLM. Em contraste com as arquiteturas de mistura de especialistas, que realizam o roteamento dentro de um único modelo, estudamos o roteamento entre múltiplos LLMs treinados independentemente. Abordamos paradigmas de roteamento diversos, incluindo dificuldade da consulta, preferências humanas, agrupamento, quantificação de incerteza, aprendizado por reforço, multimodalidade e cascateamento. Para cada paradigma, analisamos métodos representativos e examinamos os principais trade-offs. Além da taxonomia, introduzimos uma estrutura conceitual que caracteriza os sistemas de roteamento ao longo de três dimensões: quando as decisões são tomadas, que informação é utilizada e como elas são computadas. Esta perspectiva destaca que os sistemas práticos são frequentemente composicionais, integrando múltiplos paradigmas sob restrições operacionais. Nossa análise demonstra que o roteamento multi-LLM eficaz requer o equilíbrio de objetivos concorrentes. A escolha da estratégia de roteamento ideal depende das restrições de implantação e computacionais. Sistemas de roteamento bem projetados podem superar até mesmo os modelos individuais mais poderosos, aproveitando estrategicamente capacidades especializadas entre os modelos enquanto maximizam os ganhos de eficiência. Entretanto, desafios em aberto permanecem no desenvolvimento de mecanismos de roteamento que generalizem entre arquiteturas, modalidades e aplicações diversas.

English

The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.

Roteamento Dinâmico de Modelos e Cascateamento para Inferência Eficiente em LLMs: Uma Revisão

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Resumo

Support