RelayLLM: Raciocínio Eficiente por meio de Decodificação Colaborativa

Resumo

A utilização de Large Language Models (LLMs) para raciocínio complexo é frequentemente limitada por elevados custos computacionais e latência, enquanto os Small Language Models (SLMs) eficientes em recursos geralmente carecem da capacidade de raciocínio necessária. As abordagens colaborativas existentes, como cascata ou roteamento, operam a uma granularidade grossa, delegando consultas inteiras aos LLMs, resultando num desperdício computacional significativo quando o SLM é capaz de lidar com a maioria das etapas de raciocínio. Para resolver isto, propomos o RelayLLM, um novo quadro para raciocínio eficiente através de descodificação colaborativa a nível de *token*. Ao contrário dos roteadores, o RelayLLM capacita o SLM para atuar como um controlador ativo que invoca dinamicamente o LLM apenas para *tokens* críticos através de um comando especial, efetivamente "retransmitindo" o processo de geração. Introduzimos um quadro de treino em duas fases, incluindo um período de aquecimento e a Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO), para ensinar o modelo a equilibrar a independência com a procura estratégica de ajuda. Resultados empíricos em seis benchmarks demonstram que o RelayLLM atinge uma precisão média de 49,52%, preenchendo eficazmente a lacuna de desempenho entre os dois modelos. Notavelmente, isto é conseguido invocando o LLM para apenas 1,07% do total de *tokens* gerados, oferecendo uma redução de custos de 98,2% em comparação com roteadores aleatórios com desempenho equivalente.

English

Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.

RelayLLM: Raciocínio Eficiente por meio de Decodificação Colaborativa

RelayLLM: Efficient Reasoning via Collaborative Decoding

Resumo

Support