DeepSeek-R1 Gedankenlehre: Lassen Sie uns über das Denken von großen Sprachmodellen nachdenken
DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning
April 2, 2025
Autoren: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI
Zusammenfassung
Große Reasoning-Modelle wie DeepSeek-R1 markieren einen grundlegenden Wandel in der Art und Weise, wie LLMs komplexe Probleme angehen. Anstatt direkt eine Antwort für eine gegebene Eingabe zu produzieren, erstellt DeepSeek-R1 detaillierte mehrstufige Reasoning-Ketten, scheinbar „denkt“ es über ein Problem nach, bevor es eine Antwort liefert. Dieser Reasoning-Prozess ist für den Benutzer öffentlich zugänglich, was unendliche Möglichkeiten bietet, das Reasoning-Verhalten des Modells zu untersuchen und das Feld der Thoughtology zu eröffnen. Ausgehend von einer Taxonomie der grundlegenden Bausteine des Reasonings von DeepSeek-R1 untersuchen unsere Analysen zu DeepSeek-R1 die Auswirkungen und Kontrollierbarkeit der Gedankenlänge, das Management von langen oder verwirrenden Kontexten, kulturelle und Sicherheitsbedenken sowie den Status von DeepSeek-R1 im Hinblick auf kognitive Phänomene wie menschliche Sprachverarbeitung und Weltmodellierung. Unsere Ergebnisse zeichnen ein differenziertes Bild. Insbesondere zeigen wir, dass DeepSeek-R1 einen „Sweet Spot“ des Reasonings hat, bei dem zusätzliche Inferenzzeit die Modellleistung beeinträchtigen kann. Darüber hinaus stellen wir fest, dass DeepSeek-R1 dazu neigt, hartnäckig über zuvor untersuchte Problemformulierungen nachzudenken, was die weitere Exploration behindert. Wir stellen auch starke Sicherheitslücken von DeepSeek-R1 im Vergleich zu seinem nicht-reasoning Pendant fest, die auch sicherheitsausgerichtete LLMs gefährden können.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs
approach complex problems. Instead of directly producing an answer for a given
input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly
"thinking" about a problem before providing an answer. This reasoning process
is publicly available to the user, creating endless opportunities for studying
the reasoning behaviour of the model and opening up the field of Thoughtology.
Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning,
our analyses on DeepSeek-R1 investigate the impact and controllability of
thought length, management of long or confusing contexts, cultural and safety
concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such
as human-like language processing and world modelling. Our findings paint a
nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning,
where extra inference time can impair model performance. Furthermore, we find a
tendency for DeepSeek-R1 to persistently ruminate on previously explored
problem formulations, obstructing further exploration. We also note strong
safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning
counterpart, which can also compromise safety-aligned LLMs.Summary
AI-Generated Summary