ChatPaper.aiChatPaper

RelayLLM: 협력적 디코딩을 통한 효율적 추론

RelayLLM: Efficient Reasoning via Collaborative Decoding

January 8, 2026
저자: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
cs.AI

초록

복잡한 추론을 위한 대규모 언어 모델(LLM)은 높은 계산 비용과 지연 시간으로 인해 종종 제약을 받는 반면, 자원 효율적인 소규모 언어 모델(SLM)은 일반적으로 필요한 추론 능력이 부족합니다. 캐스케이딩이나 라우팅과 같은 기존의 협력 방식은 전체 쿼리를 LLM으로 오프로딩하는 거친 단위로 운영되어, SLM이 대부분의 추론 단계를 처리할 수 있는 경우에도 상당한 계산 낭비가 발생합니다. 이를 해결하기 위해 우리는 토큰 수준 협력 디코딩을 통한 효율적인 추론 프레임워크인 RelayLLM을 제안합니다. 라우터와 달리 RelayLLM은 SLM이 특수 명령어를 통해 중요한 토큰에 대해서만 LLM을 동적으로 호출하는 능동 제어기 역할을 하도록 하여 생성 과정을 효과적으로 "릴레이"합니다. 모델이 독립성과 전략적 도움 요청 사이의 균형을 유지하도록 가르치기 위해 워밍업과 그룹 상대 정책 최적화(GRPO)를 포함하는 2단계 학습 프레임워크를 도입했습니다. 6개 벤치마크에 대한 실험 결과, RelayLLM은 평균 49.52%의 정확도를 달성하여 두 모델 간의 성능 격차를 효과적으로 좁혔음을 보여줍니다. 특히 이는 생성된 전체 토큰의 1.07%에 대해서만 LLM을 호출하여 달성되었으며, 성능이 일치하는 무작위 라우터 대비 98.2%의 비용 절감 효과를 제공합니다.
English
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.
PDF181January 10, 2026