ChatPaper.aiChatPaper

DeepSeek-R1 Thoughtology: Riflettiamo sul Ragionamento dei Modelli Linguistici di Grande Dimensione

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

April 2, 2025
Autori: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI

Abstract

I grandi modelli di ragionamento come DeepSeek-R1 rappresentano un cambiamento fondamentale nel modo in cui i Large Language Models (LLM) affrontano problemi complessi. Invece di produrre direttamente una risposta per un dato input, DeepSeek-R1 crea catene di ragionamento dettagliate e multi-step, apparentemente "pensando" a un problema prima di fornire una risposta. Questo processo di ragionamento è reso pubblico all'utente, creando infinite opportunità per studiare il comportamento di ragionamento del modello e aprendo il campo della Thoughtology. Partendo da una tassonomia dei blocchi costitutivi di base del ragionamento di DeepSeek-R1, le nostre analisi su DeepSeek-R1 esplorano l'impatto e la controllabilità della lunghezza del pensiero, la gestione di contesti lunghi o confusi, le preoccupazioni culturali e di sicurezza, e lo stato di DeepSeek-R1 rispetto a fenomeni cognitivi, come l'elaborazione del linguaggio simile a quella umana e la modellazione del mondo. I nostri risultati dipingono un quadro sfumato. In particolare, dimostriamo che DeepSeek-R1 ha un "punto ottimale" di ragionamento, in cui un tempo di inferenza aggiuntivo può compromettere le prestazioni del modello. Inoltre, osserviamo una tendenza di DeepSeek-R1 a rimuginare persistentemente su formulazioni di problemi già esplorate, ostacolando ulteriori esplorazioni. Notiamo anche forti vulnerabilità di sicurezza di DeepSeek-R1 rispetto alla sua controparte non ragionante, che possono compromettere anche LLM allineati alla sicurezza.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.

Summary

AI-Generated Summary

PDF835April 11, 2025