RelayLLM: Ragionamento Efficiente tramite Decodifica Collaborativa

Abstract

I modelli linguistici di grandi dimensioni (LLM) per il ragionamento complesso sono spesso ostacolati da elevati costi computazionali e latenza, mentre i modelli linguistici piccoli (SLM) efficienti in termini di risorse tipicamente mancano della necessaria capacità di ragionamento. Gli approcci collaborativi esistenti, come il cascading o il routing, operano a una granularità grossolana delegando intere query agli LLM, risultando in uno spreco computazionale significativo quando lo SLM è in grado di gestire la maggior parte dei passaggi di ragionamento. Per affrontare questo problema, proponiamo RelayLLM, un nuovo framework per il ragionamento efficiente tramite decodifica collaborativa a livello di token. A differenza dei router, RelayLLM consente allo SLM di agire come un controllore attivo che invoca dinamicamente l'LLM solo per i token critici tramite un comando speciale, "rilanciando" efficacemente il processo di generazione. Introduciamo un framework di addestramento in due fasi, che include una fase di warm-up e l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO) per insegnare al modello a bilanciare l'indipendenza con la ricerca strategica di aiuto. I risultati empirici su sei benchmark dimostrano che RelayLLM raggiunge un'accuratezza media del 49,52%, colmando efficacemente il divario prestazionale tra i due modelli. Notevolmente, questo risultato è ottenuto invocando l'LLM solo per l'1,07% del totale dei token generati, offrendo una riduzione dei costi del 98,2% rispetto a router casuali con prestazioni equivalenti.

English

Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.

RelayLLM: Ragionamento Efficiente tramite Decodifica Collaborativa

RelayLLM: Efficient Reasoning via Collaborative Decoding

Abstract

Support