ChatPaper.aiChatPaper

RelayGen: 효율적 추론을 위한 세대 내 모델 전환

RelayGen: Intra-Generation Model Switching for Efficient Reasoning

February 6, 2026
저자: Jiwon Song, Yoongon Kim, Jae-Joon Kim
cs.AI

초록

대규모 추론 모델(LRMs)은 긴 다단계 추론 경로를 생성하여 복잡한 추론 과제에서 높은 성능을 달성하지만, 추론 시 스케일링으로 인해 상당한 배포 비용이 발생합니다. 핵심 과제는 생성 난이도가 단일 출력 내에서 가변적인 반면, 기존 효율성 중심 접근법들은 이러한 생성 내 변동성을 무시하거나 높은 시스템 복잡성을 가진 지도 방식의 토큰 수준 라우팅에 의존한다는 점입니다. 본 논문에서는 장문 추론에서의 난이도 변동성을 활용하는 학습 불필요 세그먼트 수준 런타임 모델 전환 프레임워크인 RelayGen을 제시합니다. 토큰 확률 마진을 이용한 생성 불확실성의 오프라인 분석을 통해, 추론 경로 내 난이도 전환을 포착하는 데에는 세그먼트 수준의 비교적粗粒한 제어만으로도 충분함을 보입니다. RelayGen은 낮은 난이도 세그먼트로의 전환을 알리는 모델별 전환 신호를 식별하고 해당 부분의 생성을 더 작은 모델에 동적으로 위임하는 동시에, 고난이도 추론은 대형 모델에서 유지합니다. 여러 추론 벤치마크에서 RelayGen은 대형 모델의 정확도 대부분을 보존하면서 추론 지연 시간을 상당히 줄였습니다. 스펙추레이티브 디코딩과 결합 시, RelayGen은 추가 학습이나 학습된 라우팅 구성 요소 없이 정확도 저하를 2% 미만으로 억제하면서 최대 2.2배의 종단 간 속도 향상을 달성합니다.
English
Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.
PDF112February 11, 2026