ChatPaper.aiChatPaper

RelayLLM: Эффективное логическое мышление через совместное декодирование

RelayLLM: Efficient Reasoning via Collaborative Decoding

January 8, 2026
Авторы: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
cs.AI

Аннотация

Использование больших языковых моделей (LLM) для сложных логических рассуждений часто ограничивается высокими вычислительными затратами и задержками, в то время как ресурсоэффективные малые языковые модели (SLM), как правило, не обладают необходимой способностью к рассуждениям. Существующие кооперативные подходы, такие как каскадирование или маршрутизация, работают на грубом уровне гранулярности, передавая выполнение целых запросов LLM, что приводит к значительным вычислительным потерям, когда SLM способна обработать большинство шагов рассуждений. Для решения этой проблемы мы предлагаем RelayLLM — новую архитектуру для эффективных рассуждений посредством коллаборативного декодирования на уровне токенов. В отличие от маршрутизаторов, RelayLLM позволяет SLM выступать в роли активного контроллера, который динамически задействует LLM только для критических токенов с помощью специальной команды, эффективно «передавая эстафету» процессу генерации. Мы представляем двухэтапную框架 обучения, включающую подготовительный этап и оптимизацию групповой относительной политики (GRPO), чтобы научить модель балансировать между самостоятельностью и стратегическим запросом помощи. Экспериментальные результаты на шести тестовых наборах показывают, что RelayLLM достигает средней точности 49,52%, эффективно сокращая разрыв в производительности между двумя типами моделей. Примечательно, что это достигается за счет обращения к LLM всего для 1,07% от общего количества сгенерированных токенов, что обеспечивает снижение затрат на 98,2% по сравнению со случайными маршрутизаторами с сопоставимой производительностью.
English
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.
PDF181January 10, 2026