ChatPaper.aiChatPaper

추론 서비스의 실체를 밝히다: 추론 언어 모델 서빙에 관한 실증적 연구

Reasoning Language Model Inference Serving Unveiled: An Empirical Study

October 21, 2025
저자: Qi Li, Junpan Wu, Xiang Liu, Yuxin Wang, Zeyu Li, Zhenheng Tang, Yuhan Chen, Shaohuai Shi, Xiaowen Chu
cs.AI

초록

추론 대규모 언어 모델(RLLM)은 수학, 코딩과 같은 복잡한 추론 과제 해결에 있어 일반 LLM 대비 경쟁력이 입증되었습니다. 그러나 RLLM의 서비스 성능과 동작은 아직 충분히 연구되지 않아 실제 환경에서의 RLLM 배포와 활용을 저해할 수 있습니다. 이러한 격차를 해소하기 위해 본 논문에서는 RLLM 서비스에 대한 포괄적인 연구를 수행합니다. 먼저 RLLM과 기존 LLM의 서비스 성능을 비교한 예비 연구를 통해 다음과 같은 몇 가지 뚜렷한 서비스 동작 차이를 확인했습니다: (1) 상당한 메모리 사용량 및 변동성, (2) 지연 요청, (3) 적응형 실행 시간, (4) 도메인 선호도. 이후 기존 추론 최적화 기술이 RLLM에 효과적인지 추가 조사하였으며, 주요 결론은 모델 양자화 방법과 스펙츌레이티브 디코딩이 RLLM 정확도를 크게 저하시키지 않으면서 서비스 시스템 효율을 개선할 수 있지만, 프리픽스 캐싱과 KV 캐시 양자화는 소규모 RLLM의 정확도나 서비스 성능을 오히려 저하시킬 수 있다는 것입니다. 마지막으로 감마 분포로 모델링한 실제 워크로드 하에서 평가를 수행하여 연구 결과를 검증했습니다. 다양한 데이터셋에 대한 실제 워크로드 평가의 경험적 결과는 RLLM 서빙에 관한 주요 발견과 일치합니다. 본 연구가 RLLM 추론 서비스 발전을 위한 통찰력을 연구 커뮤니티와 산업계에 제공하기를 바랍니다.
English
The reasoning large language model (RLLM) has been proven competitive in solving complex reasoning tasks such as mathematics, coding, compared to general LLM. However, the serving performance and behavior of RLLM remains unexplored, which may undermine the deployment and utilization of RLLM in real-world scenario. To close this gap, in this paper, we conduct a comprehensive study of RLLM service. We first perform a pilot study on comparing the serving performance between RLLM and traditional LLM and reveal that there are several distinct differences regarding serving behavior: (1) significant memory usage and fluctuations; (2) straggler requests; (3) adaptive running time; (4) domain preference. Then we further investigate whether existing inference optimization techniques are valid for RLLM. Our main takeaways are that model quantization methods and speculative decoding can improve service system efficiency with small compromise to RLLM accuracy, while prefix caching, KV cache quantization may even degrade accuracy or serving performance for small RLLM. Lastly, we conduct evaluation under real world workload modeled by Gamma distribution to verify our findings. Empirical results of real world workload evaluation across different dataset are aligned with our main findings regarding RLLM serving. We hope our work can provide the research community and industry with insights to advance RLLM inference serving.
PDF71December 2, 2025