DeepSeek-R1 思考学:大規模言語モデルの推論について考えよう
DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning
April 2, 2025
著者: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI
要旨
DeepSeek-R1のような大規模推論モデルは、LLMが複雑な問題にアプローチする方法において根本的な転換をもたらします。与えられた入力に対して直接答えを生成するのではなく、DeepSeek-R1は詳細な多段階の推論チェーンを作成し、まるで問題について「考え」てから答えを提供するかのようです。この推論プロセスはユーザーに公開されており、モデルの推論行動を研究するための無限の機会を創出し、Thoughtology(思考学)の分野を切り開いています。DeepSeek-R1の推論の基本的な構成要素の分類体系を出発点として、私たちの分析は、思考の長さの影響と制御性、長くて混乱を招く文脈の管理、文化的および安全性に関する懸念、そして人間のような言語処理や世界モデリングといった認知現象に対するDeepSeek-R1の状態を調査しています。私たちの調査結果は、微妙なニュアンスを描き出しています。特に、DeepSeek-R1には推論の「スイートスポット」があり、追加の推論時間がモデルの性能を損なう可能性があることを示しています。さらに、DeepSeek-R1には以前に探索した問題の定式化について執拗に反芻する傾向があり、さらなる探索を妨げることがわかりました。また、非推論型の対応モデルと比較して、DeepSeek-R1には強い安全性の脆弱性があり、安全性に配慮したLLMの安全性も損なう可能性があることに注意しています。
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs
approach complex problems. Instead of directly producing an answer for a given
input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly
"thinking" about a problem before providing an answer. This reasoning process
is publicly available to the user, creating endless opportunities for studying
the reasoning behaviour of the model and opening up the field of Thoughtology.
Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning,
our analyses on DeepSeek-R1 investigate the impact and controllability of
thought length, management of long or confusing contexts, cultural and safety
concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such
as human-like language processing and world modelling. Our findings paint a
nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning,
where extra inference time can impair model performance. Furthermore, we find a
tendency for DeepSeek-R1 to persistently ruminate on previously explored
problem formulations, obstructing further exploration. We also note strong
safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning
counterpart, which can also compromise safety-aligned LLMs.Summary
AI-Generated Summary