ChatPaper.aiChatPaper

DeepSeek-R1 사고학: LLM 추론에 대해 생각해보자

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

April 2, 2025
저자: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI

초록

DeepSeek-R1과 같은 대규모 추론 모델은 LLM(Large Language Model)이 복잡한 문제에 접근하는 방식에 근본적인 변화를 가져왔습니다. DeepSeek-R1은 주어진 입력에 대해 직접 답을 생성하는 대신, 문제를 "생각"하는 것처럼 상세한 다단계 추론 체인을 생성합니다. 이 추론 과정은 사용자에게 공개되어 있어, 모델의 추론 행동을 연구하고 '사고학(Thoughtology)'이라는 새로운 분야를 개척할 수 있는 무한한 기회를 제공합니다. DeepSeek-R1의 기본 추론 구성 요소에 대한 분류 체계를 바탕으로, 우리는 DeepSeek-R1의 사고 길이의 영향과 제어 가능성, 길거나 혼란스러운 문맥의 관리, 문화적 및 안전 문제, 그리고 인간과 유사한 언어 처리 및 세계 모델링과 같은 인지 현상에 대한 DeepSeek-R1의 상태를 분석했습니다. 우리의 연구 결과는 미묘한 그림을 그립니다. 특히, DeepSeek-R1은 추가 추론 시간이 모델 성능을 저하시킬 수 있는 '스위트 스팟'을 가지고 있음을 보여줍니다. 또한, DeepSeek-R1은 이전에 탐색한 문제 공식을 지속적으로 고민하는 경향이 있어 추가 탐색을 방해할 수 있음을 발견했습니다. 또한, DeepSeek-R1은 비추론 대응 모델에 비해 강력한 안전 취약점을 가지고 있으며, 이는 안전 정렬된 LLM에도 영향을 미칠 수 있음을 확인했습니다.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.

Summary

AI-Generated Summary

PDF835April 11, 2025