너무 깊이 생각하지 마라. 더 짧은 사고 사슬을 선호하여 LLM 추론 향상하기
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
May 23, 2025
저자: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
cs.AI
초록
추론을 수행하는 대규모 언어 모델(LLMs)은 복잡한 추론 작업을 수행하기 위해 광범위한 "사고" 체인을 생성함으로써 테스트 시간 계산을 확장하는 데 크게 의존합니다. 이 접근 방식은 인상적인 결과를 보여주지만, 상당한 계산 비용과 추론 시간을 초래합니다. 본 연구에서는 긴 사고 체인이 더 나은 추론 능력을 보장한다는 가정에 도전합니다. 먼저, 개별 질문 내에서 더 짧은 추론 체인이 정답을 도출할 가능성이 훨씬 더 높다는 것을 입증합니다. 동일한 질문에 대해 샘플링된 가장 긴 체인보다 최대 34.5% 더 정확한 결과를 보여줍니다. 이러한 결과를 바탕으로, 새로운 추론 LLM 추론 방법인 short-m@k를 제안합니다. 이 방법은 k개의 독립적인 생성을 병렬로 실행하고, 첫 번째 m개의 사고 과정이 완료되면 계산을 중단합니다. 최종 답은 이 m개의 체인 간 다수결 투표를 통해 선택됩니다. 기본적인 short-1@k는 저비용 설정에서 표준 다수결 투표와 유사하거나 더 나은 성능을 보이며, 최대 40% 더 적은 사고 토큰을 사용합니다. short-3@k는 short-1@k보다 약간 덜 효율적이지만, 모든 계산 예산에서 다수결 투표를 일관되게 능가하며, 여전히 상당히 빠른 속도(최대 33%의 벽 시간 감소)를 유지합니다. 이러한 결과에 영감을 받아, 짧은, 긴, 그리고 무작위로 선택된 추론 체인을 사용하여 LLM을 미세 조정합니다. 그 결과, 더 짧은 체인으로 학습할 때 더 나은 성능을 보이는 것을 관찰합니다. 본 연구의 결과는 추론 LLM에서 테스트 시간 계산의 현재 방법을 재고할 필요가 있음을 시사하며, 더 긴 "사고"가 반드시 성능 향상으로 이어지지 않으며, 직관과 달리 오히려 성능 저하를 초래할 수 있다는 점을 강조합니다.
English
Reasoning large language models (LLMs) heavily rely on scaling test-time
compute to perform complex reasoning tasks by generating extensive "thinking"
chains. While demonstrating impressive results, this approach incurs
significant computational costs and inference time. In this work, we challenge
the assumption that long thinking chains results in better reasoning
capabilities. We first demonstrate that shorter reasoning chains within
individual questions are significantly more likely to yield correct answers -
up to 34.5% more accurate than the longest chain sampled for the same question.
Based on these results, we suggest short-m@k, a novel reasoning LLM inference
method. Our method executes k independent generations in parallel and halts
computation once the first m thinking processes are done. The final answer is
chosen using majority voting among these m chains. Basic short-1@k demonstrates
similar or even superior performance over standard majority voting in
low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while
slightly less efficient than short-1@k, consistently surpasses majority voting
across all compute budgets, while still being substantially faster (up to 33%
wall time reduction). Inspired by our results, we finetune an LLM using short,
long, and randomly selected reasoning chains. We then observe that training on
the shorter ones leads to better performance. Our findings suggest rethinking
current methods of test-time compute in reasoning LLMs, emphasizing that longer
"thinking" does not necessarily translate to improved performance and can,
counter-intuitively, lead to degraded results.Summary
AI-Generated Summary