효율적 추론 모델: 연구 동향 분석
Efficient Reasoning Models: A Survey
April 15, 2025
저자: Sicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
초록
추론 모델들은 최종 답변에 도달하기 전에 확장된 사고의 연쇄(Chain-of-Thoughts, CoTs)를 생성함으로써 복잡하고 논리 집약적인 과제를 해결하는 데 있어서 놀라운 진전을 보여주었습니다. 그러나 이러한 "느린 사고" 패러다임의 등장과 함께 순차적으로 생성되는 수많은 토큰들은 필연적으로 상당한 계산 오버헤드를 초래합니다. 이에 따라 효과적인 가속화의 필요성이 절실히 부각되고 있습니다. 본 조사는 효율적인 추론 분야의 최근 발전을 포괄적으로 개관하는 것을 목표로 합니다. 기존 연구를 세 가지 주요 방향으로 분류하였습니다: (1) 더 짧게 - 긴 CoTs를 간결하면서도 효과적인 추론 체인으로 압축; (2) 더 작게 - 지식 증류, 기타 모델 압축 기술, 강화 학습 등을 통해 강력한 추론 능력을 가진 소형 언어 모델 개발; (3) 더 빠르게 - 추론을 가속화하기 위한 효율적인 디코딩 전략 설계. 본 조사에서 논의된 논문들의 선별된 모음은 GitHub 저장소에서 확인할 수 있습니다.
English
Reasoning models have demonstrated remarkable progress in solving complex and
logic-intensive tasks by generating extended Chain-of-Thoughts (CoTs) prior to
arriving at a final answer. Yet, the emergence of this "slow-thinking"
paradigm, with numerous tokens generated in sequence, inevitably introduces
substantial computational overhead. To this end, it highlights an urgent need
for effective acceleration. This survey aims to provide a comprehensive
overview of recent advances in efficient reasoning. It categorizes existing
works into three key directions: (1) shorter - compressing lengthy CoTs into
concise yet effective reasoning chains; (2) smaller - developing compact
language models with strong reasoning capabilities through techniques such as
knowledge distillation, other model compression techniques, and reinforcement
learning; and (3) faster - designing efficient decoding strategies to
accelerate inference. A curated collection of papers discussed in this survey
is available in our GitHub repository.Summary
AI-Generated Summary