ChatPaper.aiChatPaper

미러 스펙툴레이티브 디코딩: 대형 언어 모델 추론에서의 직렬 처리 한계 극복

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

October 15, 2025
저자: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova
cs.AI

초록

추측 디코딩(Speculative Decoding)은 드래프트 모델을 사용하여 미리 살펴봄으로써 LLM 추론을 가속화하지만, 이득은 자기회귀적 드래프트 생성 비용에 의해 제한됩니다: 드래프트 크기를 늘리면 수용률이 증가하지만 추가 지연 오버헤드가 발생하여 속도-정확도 트레이드오프를 악화시킵니다. 기존 방법들(Medusa, Hydra, EAGLE)은 부분적으로 드래프트 비용을 줄이지만 수용률을 저하시키거나 확장을 제한하는 오버헤드를 도입합니다. 우리는 지연-수용 트레이드오프를 깨는 추론 알고리즘인 미러 추측 디코딩(Mirror-SD)을 제시합니다. Mirror-SD는 타겟 모델의 접미사와 병렬로 조기 종료 신호에서 분기 완료 롤아웃을 시작하고, 이기종 가속기(GPU와 NPU) 간의 계산을 명시적으로 매핑하여 크로스 디바이스 병렬성을 활용합니다. 드래프트는 타겟이 검증할 수 있는 앞선 연속성을 추측하는 반면, 타겟은 동시에 드래프트를 위한 수정 경로를 추측하여 추측을 두 개의 상호 보완적인 실행 파이프라인으로 변환합니다. 수용 의미론을 약화시키지 않으면서 드래프트 지연을 더욱 줄이기 위해, 우리는 드래프트가 단계당 여러 토큰을 방출하는 추측 스트리밍을 추가합니다. 이 병렬 이기종 실행과 다중 토큰 추측 스트리밍의 이중 전략은 추측 디코딩을 높은 수용률과 낮은 오버헤드의 이상적인 영역으로 밀어붙입니다. 14B에서 66B 파라미터의 서버 규모 모델을 사용한 SpecBench에서, Mirror-SD는 일관된 엔드투엔드 이득을 제공하며 다양한 작업에서 2.8x-5.8x의 벽 시간 속도 향상을 달성하고, 가장 강력한 베이스라인인 EAGLE3 대비 평균 30%의 상대적 개선을 보여줍니다.
English
Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.
PDF02October 17, 2025