ChatPaper.aiChatPaper

DeepSeek-R1 Thoughtologie : Explorons le raisonnement des modèles de langage (LLM)

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

April 2, 2025
Auteurs: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI

Résumé

Les grands modèles de raisonnement comme DeepSeek-R1 marquent un changement fondamental dans la manière dont les LLM abordent les problèmes complexes. Au lieu de produire directement une réponse pour une entrée donnée, DeepSeek-R1 crée des chaînes de raisonnement détaillées en plusieurs étapes, semblant "réfléchir" à un problème avant de fournir une réponse. Ce processus de raisonnement est accessible publiquement à l'utilisateur, offrant d'innombrables opportunités pour étudier le comportement de raisonnement du modèle et ouvrant le champ de la Thoughtologie. En partant d'une taxonomie des éléments de base du raisonnement de DeepSeek-R1, nos analyses sur DeepSeek-R1 examinent l'impact et la contrôlabilité de la longueur des pensées, la gestion des contextes longs ou confus, les préoccupations culturelles et de sécurité, ainsi que le statut de DeepSeek-R1 par rapport aux phénomènes cognitifs, tels que le traitement du langage semblable à celui de l'homme et la modélisation du monde. Nos résultats dressent un tableau nuancé. Notamment, nous montrons que DeepSeek-R1 possède une "zone optimale" de raisonnement, où un temps d'inférence supplémentaire peut nuire à la performance du modèle. De plus, nous observons une tendance de DeepSeek-R1 à ruminer de manière persistante sur des formulations de problèmes déjà explorées, entravant ainsi toute exploration ultérieure. Nous notons également de fortes vulnérabilités en matière de sécurité de DeepSeek-R1 par rapport à sa contrepartie non raisonnante, ce qui peut également compromettre les LLM alignés sur la sécurité.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.

Summary

AI-Generated Summary

PDF835April 11, 2025