ChatPaper.aiChatPaper

DeepSeek-R1 Мыслелогия: Давайте поразмышляем о логических рассуждениях в больших языковых моделях

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

April 2, 2025
Авторы: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
cs.AI

Аннотация

Крупные модели рассуждений, такие как DeepSeek-R1, знаменуют собой фундаментальный сдвиг в подходе языковых моделей (LLM) к решению сложных задач. Вместо того чтобы напрямую выдавать ответ на заданный вход, DeepSeek-R1 создает детализированные цепочки многошаговых рассуждений, как бы "размышляя" над проблемой перед тем, как предоставить ответ. Этот процесс рассуждения доступен пользователю, что открывает бесконечные возможности для изучения поведения модели в процессе рассуждения и способствует развитию области "Мыслелогии" (Thoughtology). Начиная с таксономии базовых строительных блоков рассуждений DeepSeek-R1, наши анализы исследуют влияние и управляемость длины мысли, обработку длинных или запутанных контекстов, культурные и этические аспекты, а также положение DeepSeek-R1 относительно когнитивных явлений, таких как человеко-подобная обработка языка и моделирование мира. Наши выводы рисуют сложную картину. В частности, мы показываем, что у DeepSeek-R1 существует "оптимальная зона" рассуждений, где дополнительное время на вывод может ухудшить производительность модели. Кроме того, мы обнаруживаем тенденцию DeepSeek-R1 к постоянному возвращению к ранее исследованным формулировкам задач, что препятствует дальнейшему исследованию. Мы также отмечаем серьезные уязвимости в безопасности DeepSeek-R1 по сравнению с её нерассуждающими аналогами, что может также ставить под угрозу безопасность выровненных LLM.
English
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.

Summary

AI-Generated Summary

PDF835April 11, 2025