ChatPaper.aiChatPaper

파편화된 사고 연쇄 추론

Fractured Chain-of-Thought Reasoning

May 19, 2025
저자: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI

초록

추론 시간 스케일링 기법은 재학습 없이 추론 시 추가적인 계산 자원을 활용함으로써 대규모 언어 모델(LLMs)의 추론 능력을 크게 향상시켰다. 마찬가지로, Chain-of-Thought (CoT) 프롬프팅과 그 확장인 Long CoT는 풍부한 중간 추론 경로를 생성하여 정확도를 개선하지만, 이러한 접근 방식은 상당한 토큰 비용을 초래하여 지연 시간에 민감한 환경에서의 배포를 방해한다. 본 연구에서는 먼저, 추론을 완료하기 전에 중단하고 최종 답변을 직접 생성하는 truncated CoT가 종종 전체 CoT 샘플링과 동등한 성능을 보이면서도 훨씬 적은 토큰을 사용함을 보여준다. 이러한 통찰을 바탕으로, 우리는 Fractured Sampling을 소개한다. 이는 세 가지 직교 축(1) 추론 경로의 수, (2) 경로당 최종 해결책의 수, (3) 추론 흔적이 중단되는 깊이를 따라 전체 CoT와 해결책만 샘플링 사이를 보간하는 통합 추론 시간 전략이다. 다섯 가지 다양한 추론 벤치마크와 여러 모델 규모에 걸친 광범위한 실험을 통해, Fractured Sampling이 일관적으로 우수한 정확도-비용 절충을 달성하며, Pass@k 대 토큰 예산에서 가파른 로그-선형 스케일링 이득을 제공함을 입증한다. 우리의 분석은 이러한 차원에서 계산 자원을 어떻게 할당하여 성능을 극대화할 수 있는지를 보여주며, 더 효율적이고 확장 가능한 LLM 추론을 위한 길을 열어준다.
English
Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning.

Summary

AI-Generated Summary

PDF172May 20, 2025