大規模推論モデルのための効率的な推論:サーベイ
Efficient Inference for Large Reasoning Models: A Survey
March 29, 2025
著者: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI
要旨
大規模推論モデル(LRM)は、推論を学習することで大規模言語モデル(LLM)の推論能力を大幅に向上させ、複雑なタスク解決において有望な性能を示しています。しかし、その熟慮型の推論プロセスは、トークンの使用効率、メモリ消費、推論時間において非効率性を引き起こします。したがって、本調査では、推論品質を維持しつつトークンの非効率性を軽減するために設計された効率的な推論手法をレビューします。まず、最近の手法を2つの主要なカテゴリに分類するための分類法を紹介します:(a) 明示的コンパクトなChain-of-Thought(CoT)で、明示的な推論構造を保ちつつトークンを削減する手法、(b) 暗黙的な潜在CoTで、推論ステップを明示的なトークンではなく隠れた表現にエンコードする手法です。同時に、これらの手法の長所と短所について議論します。次に、既存の手法を性能と効率の観点から実証分析します。さらに、人間中心の制御可能な推論、推論の解釈可能性と効率性のトレードオフ、効率的な推論の安全性の確保、効率的な推論の幅広い応用など、この分野における未解決の課題を提示します。加えて、モデル統合、新しいアーキテクチャ、エージェントルーターなどの技術を通じてLRMの推論効率を向上させるための重要な洞察を強調します。本研究が、この活気ある分野の課題を克服するための貴重なガイドとなることを願っています。https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of
Large Language Models (LLMs) by learning to reason, exhibiting promising
performance in complex task-solving. However, their deliberative reasoning
process leads to inefficiencies in token usage, memory consumption, and
inference time. Thus, this survey provides a review of efficient inference
methods designed specifically for LRMs, focusing on mitigating token
inefficiency while preserving the reasoning quality. First, we introduce a
taxonomy to group the recent methods into two main categories: (a) explicit
compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit
reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps
within hidden representations instead of explicit tokens. Meanwhile, we discuss
their strengths and weaknesses. Then, we conduct empirical analyses on existing
methods from performance and efficiency aspects. Besides, we present open
challenges in this field, including human-centric controllable reasoning,
trade-off between interpretability and efficiency of reasoning, ensuring safety
of efficient reasoning, and broader applications of efficient reasoning. In
addition, we highlight key insights for enhancing LRMs' inference efficiency
via techniques such as model merging, new architectures, and agent routers. We
hope this work serves as a valuable guide, helping researchers overcome
challenges in this vibrant
fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.Summary
AI-Generated Summary