Pare de Pensar Demais: Uma Pesquisa sobre Raciocínio Eficiente em Modelos de Linguagem de Grande Escala
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
March 20, 2025
Autores: Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em tarefas complexas. Avanços recentes em Modelos de Raciocínio de Grande Escala (LRMs), como o OpenAI o1 e o DeepSeek-R1, melhoraram ainda mais o desempenho em domínios de raciocínio do Sistema 2, como matemática e programação, ao empregar técnicas de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) para aprimorar o raciocínio em Cadeia de Pensamento (CoT). No entanto, embora sequências mais longas de raciocínio CoT melhorem o desempenho, elas também introduzem uma sobrecarga computacional significativa devido a saídas verbosas e redundantes, conhecidas como o "fenômeno de superpensamento". Neste artigo, apresentamos o primeiro levantamento estruturado para investigar e explorar sistematicamente o progresso atual no sentido de alcançar um raciocínio eficiente em LLMs. De modo geral, com base no mecanismo inerente dos LLMs, categorizamos os trabalhos existentes em várias direções principais: (1) raciocínio eficiente baseado em modelo, que considera a otimização de modelos de raciocínio de comprimento total em modelos de raciocínio mais concisos ou o treinamento direto de modelos de raciocínio eficientes; (2) raciocínio eficiente baseado na saída de raciocínio, que visa reduzir dinamicamente os passos e o comprimento do raciocínio durante a inferência; (3) raciocínio eficiente baseado em prompts de entrada, que busca melhorar a eficiência do raciocínio com base em propriedades do prompt de entrada, como dificuldade ou controle de comprimento. Além disso, introduzimos o uso de dados eficientes para o treinamento de modelos de raciocínio, exploramos as capacidades de raciocínio de modelos de linguagem pequenos e discutimos métodos de avaliação e benchmarking.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as
OpenAI o1 and DeepSeek-R1, have further improved performance in System-2
reasoning domains like mathematics and programming by harnessing supervised
fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the
Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences
improve performance, they also introduce significant computational overhead due
to verbose and redundant outputs, known as the "overthinking phenomenon". In
this paper, we provide the first structured survey to systematically
investigate and explore the current progress toward achieving efficient
reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we
categorize existing works into several key directions: (1) model-based
efficient reasoning, which considers optimizing full-length reasoning models
into more concise reasoning models or directly training efficient reasoning
models; (2) reasoning output-based efficient reasoning, which aims to
dynamically reduce reasoning steps and length during inference; (3) input
prompts-based efficient reasoning, which seeks to enhance reasoning efficiency
based on input prompt properties such as difficulty or length control.
Additionally, we introduce the use of efficient data for training reasoning
models, explore the reasoning capabilities of small language models, and
discuss evaluation methods and benchmarking.Summary
AI-Generated Summary