Modelos de Raciocínio Eficientes: Uma Revisão
Efficient Reasoning Models: A Survey
April 15, 2025
Autores: Sicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Resumo
Modelos de raciocínio têm demonstrado progressos notáveis na resolução de tarefas complexas e intensivas em lógica, gerando Cadeias de Pensamento (Chain-of-Thoughts, CoTs) extensas antes de chegar a uma resposta final. No entanto, o surgimento desse paradigma de "pensamento lento", com inúmeros tokens gerados sequencialmente, introduz inevitavelmente uma sobrecarga computacional significativa. Diante disso, destaca-se a necessidade urgente de uma aceleração eficaz. Esta pesquisa tem como objetivo fornecer uma visão abrangente dos avanços recentes em raciocínio eficiente. Ela categoriza os trabalhos existentes em três direções principais: (1) mais curto - comprimir CoTs longas em cadeias de raciocínio concisas, porém eficazes; (2) menor - desenvolver modelos de linguagem compactos com fortes capacidades de raciocínio por meio de técnicas como destilação de conhecimento, outras técnicas de compressão de modelos e aprendizado por reforço; e (3) mais rápido - projetar estratégias de decodificação eficientes para acelerar a inferência. Uma coleção selecionada de artigos discutidos nesta pesquisa está disponível em nosso repositório no GitHub.
English
Reasoning models have demonstrated remarkable progress in solving complex and
logic-intensive tasks by generating extended Chain-of-Thoughts (CoTs) prior to
arriving at a final answer. Yet, the emergence of this "slow-thinking"
paradigm, with numerous tokens generated in sequence, inevitably introduces
substantial computational overhead. To this end, it highlights an urgent need
for effective acceleration. This survey aims to provide a comprehensive
overview of recent advances in efficient reasoning. It categorizes existing
works into three key directions: (1) shorter - compressing lengthy CoTs into
concise yet effective reasoning chains; (2) smaller - developing compact
language models with strong reasoning capabilities through techniques such as
knowledge distillation, other model compression techniques, and reinforcement
learning; and (3) faster - designing efficient decoding strategies to
accelerate inference. A curated collection of papers discussed in this survey
is available in our GitHub repository.