Routage Dynamique de Modèles et Inférence en Cascade pour une Inférence Efficace des LLM : Une Étude

Résumé

La croissance rapide des grands modèles de langage (LLM) aux capacités, coûts et domaines d'application diversifiés a créé un besoin crucial de sélection intelligente des modèles au moment de l'inférence. Si les modèles plus petits suffisent pour les requêtes courantes, les tâches complexes exigent des modèles plus performants. Cependant, le déploiement statique de modèles ne tient pas compte de la complexité et du domaine des requêtes entrantes, ce qui entraîne des performances sous-optimales et des coûts accrus. Les systèmes de routage dynamique qui sélectionnent adaptativement les modèles en fonction des caractéristiques des requêtes sont apparus comme une solution à ce défi. Nous proposons une analyse systématique des approches de routage et de mise en cascade multi-LLM les plus avancées. Contrairement aux architectures de type *mixture-of-experts* qui opèrent un routage au sein d'un seul modèle, nous étudions le routage entre plusieurs LLM entraînés indépendamment. Nous couvrons divers paradigmes de routage, incluant la difficulté des requêtes, les préférences humaines, le clustering, la quantification de l'incertitude, l'apprentissage par renforcement, la multimodalité et la mise en cascade. Pour chaque paradigme, nous analysons les méthodes représentatives et examinons les compromis clés. Au-delà de la taxonomie, nous introduisons un cadre conceptuel caractérisant les systèmes de routage selon trois dimensions : le moment où les décisions sont prises, les informations utilisées et la manière dont elles sont calculées. Cette perspective souligne que les systèmes pratiques sont souvent compositionnels, intégrant multiples paradigmes sous contraintes opérationnelles. Notre analyse démontre qu'un routage multi-LLM efficace nécessite un équilibre entre des objectifs concurrents. Le choix de la stratégie de routage optimale dépend des contraintes de déploiement et de calcul. Les systèmes de routage bien conçus peuvent surpasser même les modèles individuels les plus puissants en exploitant stratégiquement les capacités spécialisées réparties entre les modèles tout en maximisant les gains d'efficacité. Parallèlement, des défis persistent dans le développement de mécanismes de routage généralisables à travers diverses architectures, modalités et applications.

English

The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.

Routage Dynamique de Modèles et Inférence en Cascade pour une Inférence Efficace des LLM : Une Étude

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Résumé

Support