Modello Dinamico di Instradamento e Cascading per Inferenza Efficiente di LLM: Una Rassegna

Abstract

La rapida proliferazione di modelli linguistici di grandi dimensioni (LLM) con capacità, costi e domini di applicazione diversi ha creato l'esigenza critica di una selezione intelligente del modello al momento dell'inferenza. Se per query di routine sono sufficienti modelli più piccoli, i compiti complessi richiedono modelli più capaci. Tuttavia, un deployment statico dei modelli non tiene conto della complessità e del dominio delle query in arrivo, portando a prestazioni subottimali e costi aumentati. I sistemi di routing dinamico, che selezionano in modo adattivo i modelli in base alle caratteristiche della query, sono emersi come soluzione a questa sfida. Forniamo un'analisi sistematica degli approcci più avanzati per il routing e il cascading multi-LLM. A differenza delle architetture mixture-of-experts, che instradano all'interno di un singolo modello, noi studiamo l'instradamento tra più LLM addestrati in modo indipendente. Copriamo paradigmi di routing diversi, tra cui la difficoltà della query, le preferenze umane, il clustering, la quantificazione dell'incertezza, l'apprendimento per rinforzo, la multimodalità e il cascading. Per ogni paradigma, analizziamo i metodi rappresentativi ed esaminiamo i principali compromessi. Oltre alla tassonomia, introduciamo un quadro concettuale che caratterizza i sistemi di routing lungo tre dimensioni: quando vengono prese le decisioni, quali informazioni vengono utilizzate e come vengono calcolate. Questa prospettiva evidenzia che i sistemi pratici sono spesso compositi, integrando più paradigmi sotto vincoli operativi. La nostra analisi dimostra che un routing multi-LLM efficace richiede un bilanciamento di obiettivi in competizione. La scelta della strategia di routing ottimale dipende dai vincoli di deployment e computazionali. Sistemi di routing ben progettati possono superare in prestazioni anche i modelli individuali più potenti, sfruttando strategicamente le capacità specializzate tra i modelli e massimizzando al contempo i guadagni di efficienza. Nel frattempo, rimangono aperte le sfide nello sviluppo di meccanismi di routing che generalizzino attraverso architetture, modalità e applicazioni diverse.

English

The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.

Modello Dinamico di Instradamento e Cascading per Inferenza Efficiente di LLM: Una Rassegna

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Abstract

Support