ChatPaper.aiChatPaper

Не Усложняйте: Обзор Эффективных Моделей Рассуждений Стиля R1 с Большим Количеством Параметров

Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

August 4, 2025
Авторы: Linan Yue, Yichao Du, Yizhi Wang, Weibo Gao, Fangzhou Yao, Li Wang, Ye Liu, Ziyu Xu, Qi Liu, Shimin Di, Min-Ling Zhang
cs.AI

Аннотация

В последнее время крупные модели рассуждений (Large Reasoning Models, LRMs) постепенно становятся объектом активных исследований благодаря их выдающейся производительности в решении сложных задач. Среди них модель DeepSeek R1 привлекла значительное внимание благодаря своей исключительной производительности и открытому исходному коду, что способствует развитию исследований в области LRM стиля R1. В отличие от традиционных крупных языковых моделей (Large Language Models, LLMs), эти модели улучшают способности к логическому выводу и принятию решений в процессе рассуждений за счет внедрения механизмов, таких как длинные цепочки рассуждений (chain-of-thought) и саморефлексия, реализуемые через обучение с подкреплением. Однако с широким применением этих моделей постепенно возникла проблема избыточного мышления. В частности, при генерации ответов эти модели часто строят чрезмерно длинные цепочки рассуждений с избыточными или повторяющимися шагами, что снижает эффективность рассуждений и может повлиять на точность конечного ответа. В связи с этим были предложены различные методы эффективного рассуждения, направленные на сокращение длины цепочек рассуждений без ущерба для производительности модели и ее способности к рассуждению. Систематически рассматривая текущие достижения в области методов эффективного рассуждения, мы классифицируем существующие работы на два основных направления, основываясь на оптимизации отдельных моделей и их совместной работе: (1) Эффективное рассуждение с использованием одной модели, которое сосредоточено на повышении эффективности рассуждений отдельных моделей; и (2) Эффективное рассуждение с использованием совместной работы моделей, которое исследует оптимизацию цепочек рассуждений через взаимодействие нескольких моделей. Кроме того, мы поддерживаем публичный репозиторий на GitHub, где отслеживаются последние достижения в области методов эффективного рассуждения.
English
Recently, Large Reasoning Models (LRMs) have gradually become a research hotspot due to their outstanding performance in handling complex tasks. Among them, DeepSeek R1 has garnered significant attention for its exceptional performance and open-source nature, driving advancements in the research of R1-style LRMs. Unlike traditional Large Language Models (LLMs), these models enhance logical deduction and decision-making capabilities during reasoning by incorporating mechanisms such as long chain-of-thought and self-reflection through reinforcement learning. However, with the widespread application of these models, the problem of overthinking has gradually emerged. Specifically, when generating answers, these models often construct excessively long reasoning chains with redundant or repetitive steps, which leads to reduced reasoning efficiency and may affect the accuracy of the final answer. To this end, various efficient reasoning methods have been proposed, aiming to reduce the length of reasoning paths without compromising model performance and reasoning capability. By reviewing the current research advancements in the field of efficient reasoning methods systematically, we categorize existing works into two main directions based on the lens of single-model optimization versus model collaboration: (1) Efficient Reasoning with Single Model, which focuses on improving the reasoning efficiency of individual models; and (2) Efficient Reasoning with Model Collaboration, which explores optimizing reasoning paths through collaboration among multiple models. Besides, we maintain a public GitHub repository that tracks the latest progress in efficient reasoning methods.
PDF152August 8, 2025