Перестаньте переусложнять: обзор эффективных методов рассуждения для крупных языковых моделей
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
March 20, 2025
Авторы: Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в решении сложных задач. Недавние достижения в области крупных моделей рассуждений (LRM), таких как OpenAI o1 и DeepSeek-R1, еще больше улучшили производительность в областях, требующих системного мышления (System-2), таких как математика и программирование, благодаря использованию методов контролируемого тонкого настройки (SFT) и обучения с подкреплением (RL) для улучшения цепочек рассуждений (CoT). Однако, хотя более длинные последовательности CoT повышают производительность, они также вносят значительные вычислительные издержки из-за многословных и избыточных выводов, что известно как "феномен чрезмерного мышления". В данной статье мы представляем первое структурированное исследование, систематически изучающее и анализирующее текущие достижения в области повышения эффективности рассуждений в LLM. Основываясь на внутренних механизмах LLM, мы классифицируем существующие работы по нескольким ключевым направлениям: (1) эффективное рассуждение на основе моделей, которое предполагает оптимизацию полномасштабных моделей рассуждений в более компактные или прямое обучение эффективных моделей рассуждений; (2) эффективное рассуждение на основе вывода, направленное на динамическое сокращение шагов и длины рассуждений во время вывода; (3) эффективное рассуждение на основе входных подсказок, которое стремится повысить эффективность рассуждений, учитывая свойства входных подсказок, такие как сложность или управление длиной. Кроме того, мы рассматриваем использование эффективных данных для обучения моделей рассуждений, исследуем способности к рассуждениям у небольших языковых моделей и обсуждаем методы оценки и бенчмаркинга.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as
OpenAI o1 and DeepSeek-R1, have further improved performance in System-2
reasoning domains like mathematics and programming by harnessing supervised
fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the
Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences
improve performance, they also introduce significant computational overhead due
to verbose and redundant outputs, known as the "overthinking phenomenon". In
this paper, we provide the first structured survey to systematically
investigate and explore the current progress toward achieving efficient
reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we
categorize existing works into several key directions: (1) model-based
efficient reasoning, which considers optimizing full-length reasoning models
into more concise reasoning models or directly training efficient reasoning
models; (2) reasoning output-based efficient reasoning, which aims to
dynamically reduce reasoning steps and length during inference; (3) input
prompts-based efficient reasoning, which seeks to enhance reasoning efficiency
based on input prompt properties such as difficulty or length control.
Additionally, we introduce the use of efficient data for training reasoning
models, explore the reasoning capabilities of small language models, and
discuss evaluation methods and benchmarking.Summary
AI-Generated Summary