ChatPaper.aiChatPaper

Обзор эффективных методов рассуждений для крупномасштабных моделей рассуждений: язык, мультимодальность и не только

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

March 27, 2025
Авторы: Xiaoye Qu, Yafu Li, Zhaochen Su, Weigao Sun, Jianhao Yan, Dongrui Liu, Ganqu Cui, Daizong Liu, Shuxian Liang, Junxian He, Peng Li, Wei Wei, Jing Shao, Chaochao Lu, Yue Zhang, Xian-Sheng Hua, Bowen Zhou, Yu Cheng
cs.AI

Аннотация

Недавние крупные модели рассуждений (Large Reasoning Models, LRMs), такие как DeepSeek-R1 и OpenAI o1, продемонстрировали значительные улучшения в производительности за счет увеличения длины цепочек рассуждений (Chain-of-Thought, CoT) во время вывода. Однако растущую озабоченность вызывает их склонность к генерации чрезмерно длинных трасс рассуждений, которые часто содержат избыточную информацию (например, повторяющиеся определения), излишний анализ простых задач и поверхностное исследование множественных путей рассуждений для более сложных задач. Эта неэффективность создает серьезные проблемы для обучения, вывода и практического применения (например, в агент-ориентированных системах), где экономия токенов имеет критическое значение. В данном обзоре мы предоставляем всесторонний анализ последних усилий, направленных на повышение эффективности рассуждений в LRMs, с особым акцентом на уникальные вызовы, возникающие в этой новой парадигме. Мы выявляем общие паттерны неэффективности, рассматриваем методы, предложенные на всех этапах жизненного цикла LRMs — от предварительного обучения до вывода, — и обсуждаем перспективные направления для будущих исследований. Для поддержки текущего развития мы также поддерживаем актуальный репозиторий на GitHub, отслеживающий последние достижения в этой области. Мы надеемся, что этот обзор послужит основой для дальнейшего изучения и вдохновит на инновации в этой быстро развивающейся сфере.
English
Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated strong performance gains by scaling up the length of Chain-of-Thought (CoT) reasoning during inference. However, a growing concern lies in their tendency to produce excessively long reasoning traces, which are often filled with redundant content (e.g., repeated definitions), over-analysis of simple problems, and superficial exploration of multiple reasoning paths for harder tasks. This inefficiency introduces significant challenges for training, inference, and real-world deployment (e.g., in agent-based systems), where token economy is critical. In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm. We identify common patterns of inefficiency, examine methods proposed across the LRM lifecycle, i.e., from pretraining to inference, and discuss promising future directions for research. To support ongoing development, we also maintain a real-time GitHub repository tracking recent progress in the field. We hope this survey serves as a foundation for further exploration and inspires innovation in this rapidly evolving area.

Summary

AI-Generated Summary

PDF394March 31, 2025