RelayLLM: Effizientes Schließen durch kollaborative Decodierung

papers.abstract

Große Sprachmodelle (LLMs) für komplexes Schließen werden häufig durch hohe Rechenkosten und Latenzzeiten beeinträchtigt, während ressourceneffiziente Kleine Sprachmodelle (SLMs) typischerweise die notwendige Schlussfolgerungsfähigkeit vermissen lassen. Bestehende kollaborative Ansätze, wie Kaskadierung oder Routing, operieren auf einer groben Granularitätsebene, indem sie gesamte Anfragen an LLMs auslagern, was zu erheblichem Rechenaufwand führt, wenn das SLM den Großteil der Denkschritte bewältigen könnte. Um dies zu adressieren, schlagen wir RelayLLM vor, einen neuartigen Rahmen für effizientes Schließen durch token-level kollaborative Dekodierung. Im Gegensatz zu Routern befähigt RelayLLM das SLM, als aktiver Controller zu agieren, der den LLM dynamisch nur für kritische Tokens über einen speziellen Befehl aufruft und so den Generierungsprozess effektiv "weitergibt". Wir führen ein zweistufiges Trainingsframework ein, bestehend aus Warm-up und Group Relative Policy Optimization (GRPO), um dem Modell beizubringen, Unabhängigkeit mit strategischer Hilfesuche abzuwägen. Empirische Ergebnisse über sechs Benchmarks zeigen, dass RelayLLM eine durchschnittliche Genauigkeit von 49,52 % erreicht und so die Leistungslücke zwischen den beiden Modellen effektiv schließt. Bemerkenswerterweise wird dies erreicht, indem der LLM für nur 1,07 % der insgesamt generierten Tokens aufgerufen wird, was eine Kostenreduzierung von 98,2 % im Vergleich zu leistungsäquivalenten Zufalls-Routern bietet.

English

Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.

RelayLLM: Effizientes Schließen durch kollaborative Decodierung

RelayLLM: Efficient Reasoning via Collaborative Decoding

papers.abstract

Support