Enrutamiento Dinámico de Modelos y Cascada para una Inferencia Eficiente de LLM: Una Revisión

Resumen

El rápido crecimiento de modelos lingüísticos grandes (LLM) con capacidades, costos y dominios diversos ha creado una necesidad crítica de selección inteligente de modelos en tiempo de inferencia. Mientras que los modelos más pequeños son suficientes para consultas rutinarias, las tareas complejas requieren modelos más capaces. Sin embargo, el despliegue estático de modelos no considera la complejidad y el dominio de las consultas entrantes, lo que genera un rendimiento subóptimo y mayores costos. Los sistemas de enrutamiento dinámico que seleccionan modelos de forma adaptativa según las características de la consulta han surgido como una solución a este desafío. Proporcionamos un análisis sistemático de los enfoques de enrutamiento y cascada multi-LLM más avanzados. En contraste con las arquitecturas de mezcla de expertos, que realizan el enrutamiento dentro de un único modelo, estudiamos el enrutamiento entre múltiples LLM entrenados de forma independiente. Cubrimos diversos paradigmas de enrutamiento, incluyendo la dificultad de la consulta, las preferencias humanas, la agrupación en clústeres, la cuantificación de la incertidumbre, el aprendizaje por refuerzo, la multimodalidad y el encadenamiento en cascada. Para cada paradigma, analizamos métodos representativos y examinamos las compensaciones clave. Más allá de la taxonomía, introducimos un marco conceptual que caracteriza los sistemas de enrutamiento en tres dimensiones: cuándo se toman las decisiones, qué información se utiliza y cómo se computan. Esta perspectiva destaca que los sistemas prácticos suelen ser compositivos, integrando múltiples paradigmas bajo restricciones operativas. Nuestro análisis demuestra que un enrutamiento multi-LLM efectivo requiere equilibrar objetivos contrapuestos. Elegir la estrategia de enrutamiento óptima depende de las restricciones de despliegue y computacionales. Los sistemas de enrutamiento bien diseñados pueden superar incluso a los modelos individuales más potentes, aprovechando estratégicamente capacidades especializadas entre modelos mientras se maximizan las ganancias de eficiencia. Mientras tanto, persisten desafíos abiertos en el desarrollo de mecanismos de enrutamiento que generalicen a través de diversas arquitecturas, modalidades y aplicaciones.

English

The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.

Enrutamiento Dinámico de Modelos y Cascada para una Inferencia Eficiente de LLM: Una Revisión

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Resumen

Support