ChatPaper.aiChatPaper

推論言語モデル推論サービングの実証的研究:その実態と考察

Reasoning Language Model Inference Serving Unveiled: An Empirical Study

October 21, 2025
著者: Qi Li, Junpan Wu, Xiang Liu, Yuxin Wang, Zeyu Li, Zhenheng Tang, Yuhan Chen, Shaohuai Shi, Xiaowen Chu
cs.AI

要旨

推論能力に特化した大規模言語モデル(RLLM)は、数学やコーディングなどの複雑な推論タスクにおいて、汎用LLMと比較して優れた競争力を有することが実証されている。しかし、RLLMのサービング性能と動作特性については未解明な部分が多く、実環境での展開と活用を妨げる可能性がある。このギャップを埋めるため、本論文ではRLLMサービングに関する包括的な調査を実施する。まず、RLLMと従来のLLMのサービング性能を比較する予備調査を行い、サービング動作に関していくつかの明確な相違点を明らかにする:(1)顕著なメモリ使用量とその変動、(2)遅延リクエストの存在、(3)適応的な実行時間、(4)ドメイン選好性である。次に、既存の推論最適化技術がRLLMに有効かどうかを検証する。主な知見として、モデル量子化手法と投機的デコーディングは、RLLMの精度をわずかに犠牲にするものの、サービスシステムの効率を向上させることができる。一方、プレフィックスキャッシュやKVキャッシュ量子化は、小規模なRLLMにおいて精度やサービング性能をむしろ低下させる可能性がある。最後に、ガンマ分布でモデル化した実世界のワークロードを用いて評価を実施し、我々の知見を検証する。異なるデータセットにわたる実ワークロード評価の実証結果は、RLLMサービングに関する主知見と一致する。本研究が、RLLM推論サービングの発展に向けて、学界および産業界に有益な示唆を提供することを期待する。
English
The reasoning large language model (RLLM) has been proven competitive in solving complex reasoning tasks such as mathematics, coding, compared to general LLM. However, the serving performance and behavior of RLLM remains unexplored, which may undermine the deployment and utilization of RLLM in real-world scenario. To close this gap, in this paper, we conduct a comprehensive study of RLLM service. We first perform a pilot study on comparing the serving performance between RLLM and traditional LLM and reveal that there are several distinct differences regarding serving behavior: (1) significant memory usage and fluctuations; (2) straggler requests; (3) adaptive running time; (4) domain preference. Then we further investigate whether existing inference optimization techniques are valid for RLLM. Our main takeaways are that model quantization methods and speculative decoding can improve service system efficiency with small compromise to RLLM accuracy, while prefix caching, KV cache quantization may even degrade accuracy or serving performance for small RLLM. Lastly, we conduct evaluation under real world workload modeled by Gamma distribution to verify our findings. Empirical results of real world workload evaluation across different dataset are aligned with our main findings regarding RLLM serving. We hope our work can provide the research community and industry with insights to advance RLLM inference serving.
PDF71December 2, 2025