Uma Análise de Raciocínio Eficiente para Modelos de Raciocínio em Grande Escala: Linguagem, Multimodalidade e Além
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
March 27, 2025
Autores: Xiaoye Qu, Yafu Li, Zhaochen Su, Weigao Sun, Jianhao Yan, Dongrui Liu, Ganqu Cui, Daizong Liu, Shuxian Liang, Junxian He, Peng Li, Wei Wei, Jing Shao, Chaochao Lu, Yue Zhang, Xian-Sheng Hua, Bowen Zhou, Yu Cheng
cs.AI
Resumo
Modelos Recentes de Raciocínio em Grande Escala (LRMs, na sigla em inglês), como o DeepSeek-R1 e o OpenAI o1, demonstraram ganhos significativos de desempenho ao escalar o comprimento do raciocínio em cadeia (Chain-of-Thought, CoT) durante a inferência. No entanto, uma preocupação crescente reside em sua tendência a produzir traços de raciocínio excessivamente longos, frequentemente preenchidos com conteúdo redundante (por exemplo, definições repetidas), superanálise de problemas simples e exploração superficial de múltiplos caminhos de raciocínio para tarefas mais complexas. Essa ineficiência introduz desafios significativos para o treinamento, a inferência e a implantação no mundo real (por exemplo, em sistemas baseados em agentes), onde a economia de tokens é crucial. Nesta pesquisa, fornecemos uma visão abrangente dos esforços recentes destinados a melhorar a eficiência do raciocínio em LRMs, com um foco particular nos desafios únicos que surgem nesse novo paradigma. Identificamos padrões comuns de ineficiência, examinamos métodos propostos ao longo do ciclo de vida dos LRMs, desde o pré-treinamento até a inferência, e discutimos direções futuras promissoras para pesquisa. Para apoiar o desenvolvimento contínuo, também mantemos um repositório GitHub em tempo real que acompanha os progressos recentes no campo. Esperamos que esta pesquisa sirva como base para explorações adicionais e inspire inovações nesta área em rápida evolução.
English
Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have
demonstrated strong performance gains by scaling up the length of
Chain-of-Thought (CoT) reasoning during inference. However, a growing concern
lies in their tendency to produce excessively long reasoning traces, which are
often filled with redundant content (e.g., repeated definitions), over-analysis
of simple problems, and superficial exploration of multiple reasoning paths for
harder tasks. This inefficiency introduces significant challenges for training,
inference, and real-world deployment (e.g., in agent-based systems), where
token economy is critical. In this survey, we provide a comprehensive overview
of recent efforts aimed at improving reasoning efficiency in LRMs, with a
particular focus on the unique challenges that arise in this new paradigm. We
identify common patterns of inefficiency, examine methods proposed across the
LRM lifecycle, i.e., from pretraining to inference, and discuss promising
future directions for research. To support ongoing development, we also
maintain a real-time GitHub repository tracking recent progress in the field.
We hope this survey serves as a foundation for further exploration and inspires
innovation in this rapidly evolving area.