Inferência Eficiente para Modelos de Raciocínio em Grande Escala: Uma Revisão
Efficient Inference for Large Reasoning Models: A Survey
March 29, 2025
Autores: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI
Resumo
Modelos de Raciocínio em Grande Escala (LRMs) melhoram significativamente a capacidade de raciocínio dos Modelos de Linguagem em Grande Escala (LLMs) ao aprender a raciocinar, demonstrando desempenho promissor na resolução de tarefas complexas. No entanto, seu processo de raciocínio deliberativo resulta em ineficiências no uso de tokens, consumo de memória e tempo de inferência. Assim, este estudo fornece uma revisão dos métodos de inferência eficiente projetados especificamente para LRMs, com foco em mitigar a ineficiência de tokens enquanto preserva a qualidade do raciocínio. Primeiro, introduzimos uma taxonomia para agrupar os métodos recentes em duas categorias principais: (a) Cadeia de Pensamento (CoT) compacta explícita, que reduz os tokens mantendo a estrutura de raciocínio explícita, e (b) CoT latente implícita, que codifica etapas de raciocínio em representações ocultas em vez de tokens explícitos. Enquanto isso, discutimos seus pontos fortes e fracos. Em seguida, realizamos análises empíricas sobre os métodos existentes sob os aspectos de desempenho e eficiência. Além disso, apresentamos desafios em aberto neste campo, incluindo raciocínio controlado centrado no ser humano, equilíbrio entre interpretabilidade e eficiência do raciocínio, garantia de segurança do raciocínio eficiente e aplicações mais amplas do raciocínio eficiente. Adicionalmente, destacamos insights-chave para aprimorar a eficiência de inferência dos LRMs por meio de técnicas como fusão de modelos, novas arquiteturas e roteadores de agentes. Esperamos que este trabalho sirva como um guia valioso, ajudando os pesquisadores a superar desafios neste campo vibrante.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of
Large Language Models (LLMs) by learning to reason, exhibiting promising
performance in complex task-solving. However, their deliberative reasoning
process leads to inefficiencies in token usage, memory consumption, and
inference time. Thus, this survey provides a review of efficient inference
methods designed specifically for LRMs, focusing on mitigating token
inefficiency while preserving the reasoning quality. First, we introduce a
taxonomy to group the recent methods into two main categories: (a) explicit
compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit
reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps
within hidden representations instead of explicit tokens. Meanwhile, we discuss
their strengths and weaknesses. Then, we conduct empirical analyses on existing
methods from performance and efficiency aspects. Besides, we present open
challenges in this field, including human-centric controllable reasoning,
trade-off between interpretability and efficiency of reasoning, ensuring safety
of efficient reasoning, and broader applications of efficient reasoning. In
addition, we highlight key insights for enhancing LRMs' inference efficiency
via techniques such as model merging, new architectures, and agent routers. We
hope this work serves as a valuable guide, helping researchers overcome
challenges in this vibrant
fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.Summary
AI-Generated Summary