ChatPaper.aiChatPaper

DeepSeek-R1 Pensamento Lógico: Vamos refletir sobre o Raciocínio em Modelos de Linguagem de Grande Escala (LLMs)

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

April 2, 2025
Autores: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI

Resumo

Modelos de Raciocínio de Grande Escala, como o DeepSeek-R1, representam uma mudança fundamental na forma como os LLMs abordam problemas complexos. Em vez de produzir diretamente uma resposta para uma determinada entrada, o DeepSeek-R1 cria cadeias de raciocínio detalhadas e em múltiplos passos, aparentemente "pensando" sobre um problema antes de fornecer uma resposta. Esse processo de raciocínio é disponibilizado publicamente ao usuário, criando oportunidades infinitas para estudar o comportamento de raciocínio do modelo e abrindo o campo da Pensatologia. Partindo de uma taxonomia dos blocos básicos de raciocínio do DeepSeek-R1, nossas análises investigam o impacto e a controlabilidade do comprimento do pensamento, o gerenciamento de contextos longos ou confusos, preocupações culturais e de segurança, e o status do DeepSeek-R1 em relação a fenômenos cognitivos, como o processamento de linguagem semelhante ao humano e a modelagem do mundo. Nossas descobertas traçam um panorama detalhado. Notavelmente, mostramos que o DeepSeek-R1 possui um "ponto ideal" de raciocínio, onde tempo adicional de inferência pode prejudicar o desempenho do modelo. Além disso, identificamos uma tendência do DeepSeek-R1 a ruminar persistentemente sobre formulações de problemas já exploradas, obstruindo uma exploração adicional. Também observamos fortes vulnerabilidades de segurança no DeepSeek-R1 em comparação com sua contraparte não raciocinadora, o que também pode comprometer LLMs alinhados com segurança.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.

Summary

AI-Generated Summary

PDF835April 11, 2025